Question

我正在尝试通过Pandas.read_csv打开一个巨大的csv文件（约50gb）。我看到了另一个问题，解决方案是使用块，但这对我来说不是一个好方法。该文件包含从'95到现在的大量数据（我不知道多少）。实际上，我只需要使用可能允许我读取文件的结尾行（例如，从2010年开始）。非常感谢您的支持

Answer 1

尝试Dask。当我遇到类似问题时，我才开始使用这个出色的库。它与熊猫非常相似（尽管在所有功能上都有一点点限制），但是它允许您读取更多数据并执行许多基本功能，例如merge，groupby等。

从上面的链接文档中，下面是使用dask读取文件的方式。它与熊猫的代码相同。

import dask.dataframe as dd
df = dd.read_csv('2014-*.csv')
df.head()