Question

目前，我正在对2个CSV文件进行文件比较，检查每个特定文件中的重复行，检查文件之间的数据不匹配，并检查每个文件中是否缺少数据行。

目前，我在内存中这样做，为了速度而构建，因为这将不断处理数千个文件。这是有代价的，它只能处理它可以完全存储在内存中的文件。

如果由于某种原因（尽管这应该永远不会发生），我希望能够在文件不能适合内存的情况下进行比较。

这样做的好方法是什么？

Answer 1

使用熊猫。无法在python中进行数据分析。

完成

read_csv(filepath, skiprows=100000, nrows=9999999)

加载指定行的方法。

它建立在numpy之上，其中大多数方法都是用C语言实现的，这使得它们非常快。