当csv文件中的字段包含引号时,Pandas会对数据进行标记

时间:2014-02-05 23:43:14

标签: python csv pandas

我正在使用pandas.read_csv来读取制表符分隔文件并遇到错误:错误标记数据。 C错误:73058行预计有364个字段,见398

经过多次搜索后,似乎有问题的条目是:"– SO ,쳌 \\ ?Œ  ø ,d -L ,ú ,‚ ZO

删除引号似乎可以解决问题。我有很多大文件,里面有很多奇怪的字符,所以这无疑会重演。我是否需要提前删除单引号或者有什么方法可以解决这个问题?

1 个答案:

答案 0 :(得分:4)

read_csv有一个引用参数:

quoting : int or csv.QUOTE_* instance, default None
    Control field quoting behavior per ``csv.QUOTE_*`` constants. Use one of
    QUOTE_MINIMAL (0), QUOTE_ALL (1), QUOTE_NONNUMERIC (2) or QUOTE_NONE (3).
    Default (None) results in QUOTE_MINIMAL behavior.

这些是described in the csv docs

尝试设置quoting=3(即QUOTE_NONE)。