我想用read_csv方法读取大型csv类型的文件,并将chunksize指定为合理的(比如1,000,000),以免在我的Mac上出现内存问题(仅安装8GB)。
到目前为止,我会这样做,并且,为了将生成的DataFrame限制为合理的,我会选择100个用户中的1个(使用modulo 100方法)
import pandas as pd
iter_csv = pd.read_csv('data/datafile.tsv',delimiter='\t',encoding='utf-8', chunksize= 500000)
df = pd.concat([chunk[chunk['UserID'] % 100 == 1] for chunk in iter_csv])
到目前为止一切顺利。
我真正想做的是通过简单地传递块的数量,能够通过各种“块”浏览为DataFrame。
我怎么能这样做
非常感谢支持 彼得