Python Pandas df.info

时间:2016-11-02 11:42:13

标签: python python-2.7 pandas

Total files to Process :  100
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1713078 entries, 0 to 1713077
Columns: 322 entries, #RIC to Reuters Classification Scheme.1
dtypes: object(322)
memory usage: 17.1 GB
None

我创建了一个来自100个csv文件的数据框,其中你有df.info(memory_usage='deep')。 它显示17.1 GB。 究竟是什么意思? 我的mac只有16 GB RAM ....我怎么能处理它? 这会增加多少......就像那个上限一样。

1 个答案:

答案 0 :(得分:0)

pandas允许使用非常大的csv文件,即使它们不适合内存,一种方法是通过块读取它:

::

其中chunksize是要处理的行数。

然后,您可以迭代返回的TextParser对象,如:

reader = pd.read_csv(csv_filename, iterator=True, chunksize=1000)

根据您的处理,您甚至可以使用多处理来加快速度。