我正在尝试通过Pandas.read_csv打开一个巨大的csv文件(约50gb)。 我看到了另一个问题,解决方案是使用块,但这对我来说不是一个好方法。 该文件包含从'95到现在的大量数据(我不知道多少)。实际上,我只需要使用可能允许我读取文件的结尾行(例如,从2010年开始)。 非常感谢您的支持
答案 0 :(得分:0)
尝试Dask
。当我遇到类似问题时,我才开始使用这个出色的库。它与熊猫非常相似(尽管在所有功能上都有一点点限制),但是它允许您读取更多数据并执行许多基本功能,例如merge,groupby等。
https://docs.dask.org/en/latest/dataframe.html
从上面的链接文档中,下面是使用dask读取文件的方式。它与熊猫的代码相同。
import dask.dataframe as dd
df = dd.read_csv('2014-*.csv')
df.head()