在Python中读取大型csv文件

时间:2015-06-30 14:05:53

标签: python pandas dataframe chunks

我想用read_csv方法读取大型csv类型的文件,并将chunksize指定为合理的(比如1,000,000),以免在我的Mac上出现内存问题(仅安装8GB)。

到目前为止,我会这样做,并且,为了将生成的DataFrame限制为合理的,我会选择100个用户中的1个(使用modulo 100方法)

import pandas as pd
iter_csv = pd.read_csv('data/datafile.tsv',delimiter='\t',encoding='utf-8', chunksize= 500000)
df = pd.concat([chunk[chunk['UserID'] % 100 == 1] for chunk in iter_csv])
到目前为止一切顺利。 我真正想做的是通过简单地传递块的数量,能够通过各种“块”浏览为DataFrame。 我怎么能这样做

非常感谢支持 彼得

0 个答案:

没有答案