Question

我正尝试使用{p> 3将CSV文件加载到熊猫数据框中

import pandas as pd
filename = '2016-2018_wave-IV.csv'

df = pd.read_csv(filename)

但是，尽管我的PC并不超级慢（8GB RAM，64位python）并且文件虽然有点大但又不是很大（<33 MB），但是加载文件仍需要10分钟以上。据我了解，这应该花不了那么长时间，我想弄清楚这背后的原因。（正如在类似问题中所建议的那样，我尝试使用chunksize和usecol参数（ EDIT 以及low_memory），但没有成功；所以我认为这是成功的不是重复项，而是与文件或设置有更多关系。）

有人可以给我指点吗？非常感谢。：）

Answer 1

我正在测试您共享的文件，问题是此csv文件的每一行都带有双引号和结尾双引号（因此Panda认为整行是一列）。在处理之前必须将其删除，例如通过在Linux中使用sed或仅在python中处理并重新保存文件，或者仅在文本编辑器中替换所有双引号。

Answer 2

总结并扩展@Hubert Dudek的答案：

问题出在文件上；它不仅在每行的开头都包含"，而且在行本身中也包含。修复前者后，后者导致列属性混乱。

尽管尺寸相对较小，pandas.read_csv仍会出现内存错误

2 个答案: