Question

我想知道python字典在处理大数据方面的效率如何。让我假设我有两个12 GB的文件，我可以为每个文件创建两个词典，其中90％的数据在每个文件中都是唯一的。接下来我需要这些词典来比较基于键的数据。我试过16GB的机器消耗所有内存并跳过执行脚本的地方。或者python中字典的替代方法？以下是示例代码

for line in fileinput.input(src_one,0,"",0,'r',False):
    line = line.strip()
    TmpArr=line.split('|')
    key=TmpArr[2],TmpArr[3],TmpArr[11],TmpArr[12],TmpArr[13],TmpArr[14],TmpArr[15]
    DictOne[key]=line
for line in fileinput.input(src_two,0,"",0,'r',False):
     line = line.strip()
     TmpArr=line.split('|')
     key=TmpArr[2],TmpArr[3],TmpArr[11],TmpArr[12],TmpArr[13],TmpArr[14],TmpArr[15]
     DictTwo[key]=line

感谢。

Answer 1

Python词典不是为内存不足数据而设计的。

但是有一些标准库，即shelve模块。

用于处理大数据的Python字典

1 个答案: