我想知道python字典在处理大数据方面的效率如何。 让我假设我有两个12 GB的文件,我可以为每个文件创建两个词典,其中90%的数据在每个文件中都是唯一的。接下来我需要这些词典来比较基于键的数据。我试过16GB的机器消耗所有内存并跳过执行脚本的地方。或者python中字典的替代方法? 以下是示例代码
for line in fileinput.input(src_one,0,"",0,'r',False):
line = line.strip()
TmpArr=line.split('|')
key=TmpArr[2],TmpArr[3],TmpArr[11],TmpArr[12],TmpArr[13],TmpArr[14],TmpArr[15]
DictOne[key]=line
for line in fileinput.input(src_two,0,"",0,'r',False):
line = line.strip()
TmpArr=line.split('|')
key=TmpArr[2],TmpArr[3],TmpArr[11],TmpArr[12],TmpArr[13],TmpArr[14],TmpArr[15]
DictTwo[key]=line
感谢。
答案 0 :(得分:0)
Python词典不是为内存不足数据而设计的。
但是有一些标准库,即shelve
模块。