Question

我想通过计算每一行的出现次数来对大文本文件（大约12千兆）进行排序。为此，我使用了：

sort file.txt | uniq -c > sorted

但由于几何扩张，它将永远消失。有什么想法吗？

Answer 1

from collections import defaultdict

d = defaultdict(int)

with open(file.txt) as f:
    for line in f:
        d[line]+=1

d现在包含一个字典，其中每个键都是一个唯一的行，值是该行的计数。