用于处理大数据的Python字典

时间:2014-10-14 12:07:13

标签: python

我想知道python字典在处理大数据方面的效率如何。 让我假设我有两个12 GB的文件,我可以为每个文件创建两个词典,其中90%的数据在每个文件中都是唯一的。接下来我需要这些词典来比较基于键的数据。我试过16GB的机器消耗所有内存并跳过执行脚本的地方。或者python中字典的替代方法? 以下是示例代码

for line in fileinput.input(src_one,0,"",0,'r',False):
    line = line.strip()
    TmpArr=line.split('|')
    key=TmpArr[2],TmpArr[3],TmpArr[11],TmpArr[12],TmpArr[13],TmpArr[14],TmpArr[15]
    DictOne[key]=line
for line in fileinput.input(src_two,0,"",0,'r',False):
     line = line.strip()
     TmpArr=line.split('|')
     key=TmpArr[2],TmpArr[3],TmpArr[11],TmpArr[12],TmpArr[13],TmpArr[14],TmpArr[15]
     DictTwo[key]=line

感谢。

1 个答案:

答案 0 :(得分:0)

Python词典不是为内存不足数据而设计的。

但是有一些标准库,即shelve模块。