Question

我的分区文件格式不正确，分隔符存在错误，因此有时会出现不同行中的列数不一致。

当我跑步时

pd.read_csv('patentHeader.txt', sep="|", header=0)

该过程因此错误而死：

CParserError：标记数据时出错。 C错误：预计10行1034558中的9个字段，见15

有没有办法让大熊猫跳过这些行并继续？或者换句话说，是否有某种方法可以使read_csv更灵活地了解它遇到的列数？

Answer 1

试试这个。

pd.read_csv('patentHeader.txt', sep="|", header=0, error_bad_lines=False)

error_bad_lines：如果为False，那么任何导致错误的行都会跳过坏行，并且一旦读取过程完成就会报告。