在巨大的csv文件中搜索类似的列

时间:2016-09-04 21:01:35

标签: bash perl csv c++11

我有一个巨大的csv文件,它有5000列和5,000,000行。我知道这个文件中有一些列完全相同。我想识别这样的列。请注意,我无法将这个巨大的文件存入内存,运行时也很重要。

1 个答案:

答案 0 :(得分:1)

完全相同?

我想你可以用哈希函数验证它。

步骤1 - 您可以加载第一行的5'000个值并计算5'000个哈希值;排除没有相应值的值(列)。

步骤2 - 加载值(仅列幸存)并计算前面哈希与连接值的串联的哈希值;排除没有相应值的值(列)。

以下步骤:完全如第2步:加载和连接/哈希,排除没有匹配的列。