我想通过计算每一行的出现次数来对大文本文件(大约12千兆)进行排序。为此,我使用了:
sort file.txt | uniq -c > sorted
但由于几何扩张,它将永远消失。有什么想法吗?
答案 0 :(得分:0)
from collections import defaultdict
d = defaultdict(int)
with open(file.txt) as f:
for line in f:
d[line]+=1
d现在包含一个字典,其中每个键都是一个唯一的行,值是该行的计数。