使用pandas加载大型CSV文件

时间:2013-07-30 14:05:44

标签: python csv pandas

我正在尝试使用pandas加载csv文件(大约250 MB)作为数据帧。在我的第一次尝试中,我使用了典型的read_csv命令,但是我收到了错误内存。 我尝试使用chunk:{/ 3>} Large, persistent DataFrame in pandas中提到的方法

x=pd.read_csv('myfile.csv', iterator=True, chunksize=1000)
xx=pd.concat([chunk for chunk in x], ignore_index=True)

但是当我尝试连接时,我收到了以下错误:例外:“所有传递的对象都是无”。实际上我无法访问块

我使用winpy 3.3.2.1获得32位,pandas为0.11.0

2 个答案:

答案 0 :(得分:2)

我建议您安装64位版本的winpython。然后你应该能够毫无问题地加载250 MB的文件。

答案 1 :(得分:0)

我迟到了,但发布代码的实际问题是使用pd.concat([chunk for chunk in x])有效地取消了分块的任何好处,因为它将所有这些块连接成一个大的DataFrame。
这甚至可能需要暂时占用两倍的内存。