选择性连接两个巨大的文件

时间:2013-03-25 13:25:25

标签: python

我有两个非常大的平面文本文件(每个> 10 GB)。这些文件包含许多行 - 每行是一个字符串(大约80个字节),separatorn,然后是另一个更大的字符串。 第一个字符串类似于第一个文件的唯一键,但可以在第二个文件中重复。 所以,我需要得到一个结果文件 - 它应该包含密钥(可能像第二个文件一样重复)分隔符第一个文件中的第二个字符串,然后是第二个文件中的第二个字符串。

我正在考虑使用dict来存储来自第一个文件的信息:key = someHash(str1),value =文件中的位置和通过第二个文件的迭代并将结果打印到第三个文件 但是我不知道应该使用哪个哈希以及是否应该使用它 如何解决可能的碰撞? 最后,如何为这个问题构建有效(内存+时间)解决方案

1 个答案:

答案 0 :(得分:0)

python提供的哈希被设计为加密强,这意味着,简单来说,它们是处理器密集型的。如果您决定使用脚本解决方案,请参阅this question了解其他选项。