我正尝试使用{p> 3将CSV文件加载到熊猫数据框中
import pandas as pd
filename = '2016-2018_wave-IV.csv'
df = pd.read_csv(filename)
但是,尽管我的PC并不超级慢(8GB RAM,64位python)并且文件虽然有点大但又不是很大(<33 MB),但是加载文件仍需要10分钟以上。据我了解,这应该花不了那么长时间,我想弄清楚这背后的原因。
(正如在类似问题中所建议的那样,我尝试使用chunksize
和usecol
参数( EDIT 以及low_memory
),但没有成功;所以我认为这是成功的不是重复项,而是与文件或设置有更多关系。)
有人可以给我指点吗?非常感谢。 :)
答案 0 :(得分:1)
我正在测试您共享的文件,问题是此csv文件的每一行都带有双引号和结尾双引号(因此Panda认为整行是一列)。在处理之前必须将其删除,例如通过在Linux中使用sed或仅在python中处理并重新保存文件,或者仅在文本编辑器中替换所有双引号。
答案 1 :(得分:0)
总结并扩展@Hubert Dudek的答案:
问题出在文件上;它不仅在每行的开头都包含"
,而且在行本身中也包含。修复前者后,后者导致列属性混乱。