应用错误收集

我需要比较匹配对中的CSV文件，这些文件对于它们包含的任何差异，每个都是100GB。我不能在记忆中做比较，因为它们很大（显然）。我不能逐行比较，因为数据可能是不同的顺序。例如，文件A中的第1行是文件B中的第293848292行。所有这些CSV文件的模式都是未知的。如果需要，我们可以读取文件A的第一行来获取列数，但这是最后的努力，因为可能只有第一行不匹配。我的解决方案是将每个读入一个sqlite表然后在表之间进行比较（如果你有更好的解决方案，请告诉我）。另外需要注意的是，我们假设没有PK，也没有Header行。如何将这个未知模式的文件读入sqlite表？

是的，我搜索过stackoverflow，但我找到的所有解决方案都是针对已知架构的。

如何使用未知架构创建导出csv到sqlite db文件

0 个答案: