我需要比较匹配对中的CSV文件,这些文件对于它们包含的任何差异,每个都是100GB。我不能在记忆中做比较,因为它们很大(显然)。我不能逐行比较,因为数据可能是不同的顺序。例如,文件A中的第1行是文件B中的第293848292行。所有这些CSV文件的模式都是未知的。如果需要,我们可以读取文件A的第一行来获取列数,但这是最后的努力,因为可能只有第一行不匹配。我的解决方案是将每个读入一个sqlite表然后在表之间进行比较(如果你有更好的解决方案,请告诉我)。另外需要注意的是,我们假设没有PK,也没有Header行。如何将这个未知模式的文件读入sqlite表?
是的,我搜索过stackoverflow,但我找到的所有解决方案都是针对已知架构的。