目前,我正在对2个CSV文件进行文件比较,检查每个特定文件中的重复行,检查文件之间的数据不匹配,并检查每个文件中是否缺少数据行。
目前,我在内存中这样做,为了速度而构建,因为这将不断处理数千个文件。这是有代价的,它只能处理它可以完全存储在内存中的文件。
如果由于某种原因(尽管这应该永远不会发生),我希望能够在文件不能适合内存的情况下进行比较。
这样做的好方法是什么?
答案 0 :(得分:0)
使用熊猫。无法在python中进行数据分析。
https://pandas.pydata.org/pandas-docs/stable/10min.html
完成
read_csv(filepath, skiprows=100000, nrows=9999999)
加载指定行的方法。
它建立在numpy之上,其中大多数方法都是用C语言实现的,这使得它们非常快。