在pandas中读取可变数量的列

时间:2015-06-24 21:51:20

标签: pandas

我的分区文件格式不正确,分隔符存在错误,因此有时会出现不同行中的列数不一致。

当我跑步时

pd.read_csv('patentHeader.txt', sep="|", header=0)

该过程因此错误而死:

  

CParserError:标记数据时出错。 C错误:预计10行1034558中的9个字段,见15

有没有办法让大熊猫跳过这些行并继续?或者换句话说,是否有某种方法可以使read_csv更灵活地了解它遇到的列数?

1 个答案:

答案 0 :(得分:2)

试试这个。

pd.read_csv('patentHeader.txt', sep="|", header=0, error_bad_lines=False)

error_bad_lines:如果为False,那么任何导致错误的行都会跳过坏行,并且一旦读取过程完成就会报告。