我的分区文件格式不正确,分隔符存在错误,因此有时会出现不同行中的列数不一致。
当我跑步时
pd.read_csv('patentHeader.txt', sep="|", header=0)
该过程因此错误而死:
CParserError:标记数据时出错。 C错误:预计10行1034558中的9个字段,见15
有没有办法让大熊猫跳过这些行并继续?或者换句话说,是否有某种方法可以使read_csv
更灵活地了解它遇到的列数?
答案 0 :(得分:2)
试试这个。
pd.read_csv('patentHeader.txt', sep="|", header=0, error_bad_lines=False)
error_bad_lines
:如果为False,那么任何导致错误的行都会跳过坏行,并且一旦读取过程完成就会报告。