我正在使用pandas.read_csv
来读取制表符分隔文件并遇到错误:错误标记数据。 C错误:73058行预计有364个字段,见398
经过多次搜索后,似乎有问题的条目是:"– SO ,쳌 \\ ?Œ ø ,d -L ,ú ,‚ ZO
删除引号似乎可以解决问题。我有很多大文件,里面有很多奇怪的字符,所以这无疑会重演。我是否需要提前删除单引号或者有什么方法可以解决这个问题?
答案 0 :(得分:4)
read_csv
有一个引用参数:
quoting : int or csv.QUOTE_* instance, default None
Control field quoting behavior per ``csv.QUOTE_*`` constants. Use one of
QUOTE_MINIMAL (0), QUOTE_ALL (1), QUOTE_NONNUMERIC (2) or QUOTE_NONE (3).
Default (None) results in QUOTE_MINIMAL behavior.
尝试设置quoting=3
(即QUOTE_NONE
)。