我已删除所有代码并将所有文件添加到一个大文本文件中(3,89GB).. 但我仍然无法删除所有重复的单词,因为我无法将整个文件加载到['list']我想删除dict.txt中的所有重复单词。我的代码目前加载10 000000个单词列表并删除列表中的重复....
count = 0
strings = []
dict_o = open ('./dict/dict.txt','r')
for line in dict_o:
strings.append(line)
count+=1
if count > 10000000:
strings_s =set(strings)
strings_so = sorted(strings_s)
out = open('./dict/dict1.txt','a').writelines(strings_so)
count = 0
strings= []
答案 0 :(得分:0)
执行此操作的方法很多,最简单的方法是实例化列表 - 然后解析文本文件并检查列表中是否存在每个单词。如果是,则删除它。如果没有,则将其添加到列表中继续。
有许多方法可以删除它,最懒的解决方案是创建一个最终的字符串,并连接每个不重复的单词。然后最后将该字符串写入文件。
正如评论中指出的那样,你的文本文件的一个例子将有助于提出更好的解决方案