Question

Total files to Process :  100
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1713078 entries, 0 to 1713077
Columns: 322 entries, #RIC to Reuters Classification Scheme.1
dtypes: object(322)
memory usage: 17.1 GB
None

我创建了一个来自100个csv文件的数据框，其中你有df.info(memory_usage='deep')。它显示17.1 GB。究竟是什么意思？我的mac只有16 GB RAM ....我怎么能处理它？这会增加多少......就像那个上限一样。

Answer 1

pandas允许使用非常大的csv文件，即使它们不适合内存，一种方法是通过块读取它：

::

其中chunksize是要处理的行数。

然后，您可以迭代返回的TextParser对象，如：

reader = pd.read_csv(csv_filename, iterator=True, chunksize=1000)

根据您的处理，您甚至可以使用多处理来加快速度。

Python Pandas df.info

1 个答案: