从wiki读取csv文件时出现CParserError

时间:2017-07-13 13:34:42

标签: python pandas

来自大学城的the Wikipedia page是美国大学城的列表,已经复制并粘贴到university_towns.txt文件中。

我使用pandas.read_csv('university_towns.txt')来读取文件,但获取CParserError消息。

我也尝试设置error_bad_lines=False,但它会导致一些数据丢失。

CParserError: Error tokenizing data. C error: Expected 1 fields in line 8,saw 3

1 个答案:

答案 0 :(得分:0)

在将其粘贴到university_towns.txt后,您不清楚对列表引入了哪些更改。但是,快速查看列表会显示许多大学名称中包含逗号,。这就是导致pandas.read_csv失败的原因

Leeds (Leeds College of Art, Leeds College of Music, Northern School of Contemporary Dance, Leeds Metropolitan University, Leeds Trinity University, University of Leeds)

这是因为,如pandas.read_csv documentation中所述,逗号使用","作为默认分隔符sep=","。快速解决方法是按如下方式更改分隔符:

pandas.read_csv('university_towns.txt', sep="|")