应用错误收集

我想用read_csv方法读取大型csv类型的文件，并将chunksize指定为合理的（比如1,000,000），以免在我的Mac上出现内存问题（仅安装8GB）。

到目前为止，我会这样做，并且，为了将生成的DataFrame限制为合理的，我会选择100个用户中的1个（使用modulo 100方法）

import pandas as pd
iter_csv = pd.read_csv('data/datafile.tsv',delimiter='\t',encoding='utf-8', chunksize= 500000)
df = pd.concat([chunk[chunk['UserID'] % 100 == 1] for chunk in iter_csv])

到目前为止一切顺利。我真正想做的是通过简单地传递块的数量，能够通过各种“块”浏览为DataFrame。我怎么能这样做

非常感谢支持彼得

在Python中读取大型csv文件

0 个答案: