排序和计算12千兆文本文件的出现次数

时间:2012-11-21 11:04:09

标签: python-2.7

我想通过计算每一行的出现次数来对大文本文件(大约12千兆)进行排序。为此,我使用了:

sort file.txt | uniq -c > sorted  

但由于几何扩张,它将永远消失。有什么想法吗?

1 个答案:

答案 0 :(得分:0)

from collections import defaultdict

d = defaultdict(int)

with open(file.txt) as f:
    for line in f:
        d[line]+=1

d现在包含一个字典,其中每个键都是一个唯一的行,值是该行的计数。