我有一个巨大的python列表,大约100 MB大小的字符串和整数。我有一些字符串作为三次重复和重复。我试图用这段代码删除重复项:
from collections import OrderedDict
duplicates = [.......large size list of 100 MB....]
remove = OrderedDict.fromkeys(duplicates).keys()
print remove
我已经完成了小尺寸列表并且它工作得很好,有了这个大型列表,它花了我一整天而且还没有完成。关于如何在几分钟内完成这项工作的任何建议,..少许?我已经尝试在Ubuntu中安装CUDA来解决它但我一直收到错误:请参阅here
答案 0 :(得分:0)
不确定这是否足够有效,但解决它的一种简单方法是将列表转换为集合。
2>&1