从多文本单词列表python中删除重复项

时间:2014-11-06 20:27:28

标签: python-2.7 duplicate-removal word-list

我已删除所有代码并将所有文件添加到一个大文本文件中(3,89GB)..  但我仍然无法删除所有重复的单词,因为我无法将整个文件加载到['list']我想删除dict.txt中的所有重复单词。我的代码目前加载10 000000个单词列表并删除列表中的重复....

count = 0
strings = []
dict_o = open ('./dict/dict.txt','r')  
for line in dict_o:
  strings.append(line)
  count+=1
  if count > 10000000:
    strings_s =set(strings)
    strings_so = sorted(strings_s)
    out = open('./dict/dict1.txt','a').writelines(strings_so)
    count = 0
    strings= []

1 个答案:

答案 0 :(得分:0)

执行此操作的方法很多,最简单的方法是实例化列表 - 然后解析文本文件并检查列表中是否存在每个单词。如果是,则删除它。如果没有,则将其添加到列表中继续。

有许多方法可以删除它,最懒的解决方案是创建一个最终的字符串,并连接每个不重复的单词。然后最后将该字符串写入文件。

正如评论中指出的那样,你的文本文件的一个例子将有助于提出更好的解决方案