我有一个巨大的csv文件,它有5000列和5,000,000行。我知道这个文件中有一些列完全相同。我想识别这样的列。请注意,我无法将这个巨大的文件存入内存,运行时也很重要。
答案 0 :(得分:1)
完全相同?
我想你可以用哈希函数验证它。
步骤1 - 您可以加载第一行的5'000个值并计算5'000个哈希值;排除没有相应值的值(列)。
步骤2 - 加载值(仅列幸存)并计算前面哈希与连接值的串联的哈希值;排除没有相应值的值(列)。
以下步骤:完全如第2步:加载和连接/哈希,排除没有匹配的列。