尽管尺寸相对较小,pandas.read_csv仍会出现内存错误

时间:2019-02-24 18:51:09

标签: python-3.x pandas csv

我正尝试使用{p> 3将CSV文件加载到熊猫数据框中

import pandas as pd
filename = '2016-2018_wave-IV.csv'

df = pd.read_csv(filename)

但是,尽管我的PC并不超级慢(8GB RAM,64位python)并且文件虽然有点大但又不是很大(<33 MB),但是加载文件仍需要10分钟以上。据我了解,这应该花不了那么长时间,我想弄清楚这背后的原因。 (正如在类似问题中所建议的那样,我尝试使用chunksizeusecol参数( EDIT 以及low_memory),但没有成功;所以我认为这是成功的不是重复项,而是与文件或设置有更多关系。)

有人可以给我指点吗?非常感谢。 :)

2 个答案:

答案 0 :(得分:1)

我正在测试您共享的文件,问题是此csv文件的每一行都带有双引号和结尾双引号(因此Panda认为整行是一列)。在处理之前必须将其删除,例如通过在Linux中使用sed或仅在python中处理并重新保存文件,或者仅在文本编辑器中替换所有双引号。

答案 1 :(得分:0)

总结并扩展@Hubert Dudek的答案:

问题出在文件上;它不仅在每行的开头都包含",而且在行本身中也包含。修复前者后,后者导致列属性混乱。