比较2个大文件(不在内存中),从哪里开始

时间:2018-02-19 21:22:58

标签: python

目前,我正在对2个CSV文件进行文件比较,检查每个特定文件中的重复行,检查文件之间的数据不匹配,并检查每个文件中是否缺少数据行。

目前,我在内存中这样做,为了速度而构建,因为这将不断处理数千个文件。这是有代价的,它只能处理它可以完全存储在内存中的文件。

如果由于某种原因(尽管这应该永远不会发生),我希望能够在文件不能适合内存的情况下进行比较。

这样做的好方法是什么?

1 个答案:

答案 0 :(得分:0)

使用熊猫。无法在python中进行数据分析。

https://pandas.pydata.org/pandas-docs/stable/10min.html

完成

read_csv(filepath, skiprows=100000, nrows=9999999) 

加载指定行的方法。

它建立在numpy之上,其中大多数方法都是用C语言实现的,这使得它们非常快。