Total files to Process : 100
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1713078 entries, 0 to 1713077
Columns: 322 entries, #RIC to Reuters Classification Scheme.1
dtypes: object(322)
memory usage: 17.1 GB
None
我创建了一个来自100个csv文件的数据框,其中你有df.info(memory_usage='deep')
。
它显示17.1 GB
。
究竟是什么意思?
我的mac只有16 GB RAM ....我怎么能处理它?
这会增加多少......就像那个上限一样。
答案 0 :(得分:0)
pandas允许使用非常大的csv文件,即使它们不适合内存,一种方法是通过块读取它:
::
其中chunksize是要处理的行数。
然后,您可以迭代返回的TextParser对象,如:
reader = pd.read_csv(csv_filename, iterator=True, chunksize=1000)
根据您的处理,您甚至可以使用多处理来加快速度。