来自大学城的the Wikipedia page是美国大学城的列表,已经复制并粘贴到university_towns.txt
文件中。
我使用pandas.read_csv('university_towns.txt')
来读取文件,但获取CParserError
消息。
我也尝试设置error_bad_lines=False
,但它会导致一些数据丢失。
CParserError: Error tokenizing data. C error: Expected 1 fields in line 8,saw 3
答案 0 :(得分:0)
在将其粘贴到university_towns.txt
后,您不清楚对列表引入了哪些更改。但是,快速查看列表会显示许多大学名称中包含逗号,
。这就是导致pandas.read_csv
失败的原因
Leeds (Leeds College of Art, Leeds College of Music, Northern School of Contemporary Dance, Leeds Metropolitan University, Leeds Trinity University, University of Leeds)
这是因为,如pandas.read_csv
documentation中所述,逗号使用","
作为默认分隔符sep=","
。快速解决方法是按如下方式更改分隔符:
pandas.read_csv('university_towns.txt', sep="|")