我有两个非常大的平面文本文件(每个> 10 GB)。这些文件包含许多行 - 每行是一个字符串(大约80个字节),separatorn,然后是另一个更大的字符串。 第一个字符串类似于第一个文件的唯一键,但可以在第二个文件中重复。 所以,我需要得到一个结果文件 - 它应该包含密钥(可能像第二个文件一样重复)分隔符第一个文件中的第二个字符串,然后是第二个文件中的第二个字符串。
我正在考虑使用dict来存储来自第一个文件的信息:key = someHash(str1),value =文件中的位置和通过第二个文件的迭代并将结果打印到第三个文件 但是我不知道应该使用哪个哈希以及是否应该使用它 如何解决可能的碰撞? 最后,如何为这个问题构建有效(内存+时间)解决方案