[Python] Подсчет уникальных строк

Lector · 6 Aug 2019

добрый день!
Знакомлюсь с python. Необходимо подсчитать количество уникальных строк в файле.
Если задаю руками список, то все ок.

from collections import Counter
text ="""
Илья
Марина
Марина
Марина
"""
text = text.split('\n')
count = Counter(text)
print (count)

Получаю:
Counter({'Марина': 3, '': 2, 'Илья': 1})

Как обработать построчно большой текстовый файл и вывести счетчик уникальных значений?
Буду признателен!

Lector · 6 Aug 2019

Выдает только первое значение списка...

from collections import Counter
import re

list_of_lists = []
with open(r"D:\Scripts\base.txt") as f:
for line in f:
inner_list = [elt.strip() for elt in line.split('\n')]
list_of_lists.append(inner_list)

count = Counter(inner_list)
print (count)

herfleisch · 9 Aug 2019

Ты как-то немного усложнил реализацию. Все намного проще:
Code:
from collections import Counter

counter = Counter()

with open("base.txt") as file:
    for line in file:
        lineKey = line.replace('\n', '')
        counter[lineKey] += 1

print(counter)
Это такая, более императивная реализация того что тебе нужно. Если же хочешь пайтоновской красоты, то можно вот так:
Code:
from collections import Counter

with open("base.txt") as file:
    counter = Counter(line[:-1] for line in file)
    print(counter)

xppert · 13 Aug 2019

Для этих целей есть специальная базовая структура языка называется set:
Code:
>>> items = set([1, 2, 3, 1, 2, 2, 5])
>>> print(items)
{1, 2, 3, 5}

Kevin Shindel · 20 Oct 2019

xppert said: ↑
Для этих целей есть специальная базовая структура языка называется set:
Code:
>>> items = set([1, 2, 3, 1, 2, 2, 5])
>>> print(items)
{1, 2, 3, 5}
Click to expand...
Только она возвращает уникальные значения, а челу нужно список совпадений.

4Fun · 5 Sep 2020

herfleisch said: ↑
Code:
from collections import Counter with open("base.txt") as file: counter = Counter(line[:-1] for line in file) print(counter)
Click to expand...
Вижу небольшую проблемку с избавлением от символа переноса строки. Поскольку Python имеет элегантный синтаксис, призванный убедить программистов писать читаемый код, я решил бы её так:
Code:
from collections import Counter

with open("base.txt") as file:
    counter = Counter(file.read().splitlines())
    print(counter)

DctrSchmidt · 28 Mar 2021

Code:

from collections import Counter
from pprint import pprint

r = Counter([x.strip() for x in open('words.txt').readlines() if x.strip()])
pprint(r)

Hohol99 · 8 Apr 2021

DctrSchmidt said: ↑
Code:
from collections import Counter
from pprint import pprint

r = Counter([x.strip() for x in open('words.txt').readlines() if x.strip()])
pprint(r)
Click to expand...
Подойдет ли решение для больших файлов?
При попытке обработать большие файлы вечно появляются проблемы, ни потоки, не деление на части не помогает, python не занимает больше 30% нагрузки на диск.
Может быть эта задача не решаемая питоном? Все-таки не самый быстрый язык.

[Python] Подсчет уникальных строк

Lector New Member

Lector New Member

herfleisch Elder - Старейшина

xppert New Member

Kevin Shindel Elder - Старейшина

4Fun Elder - Старейшина

DctrSchmidt New Member

Hohol99 Member

Useful Searches

[Python] Подсчет уникальных строк

Lector New Member

Lector New Member

herfleisch Elder - Старейшина

xppert New Member

Kevin Shindel Elder - Старейшина

4Fun Elder - Старейшина

DctrSchmidt New Member

Hohol99 Member