与虹膜数据集的编码差异

时间:2018-09-01 03:24:58

标签: python encoding iris-dataset

将数据集下载为iris.data后,将其重命名为iris.data.txt。我试图绕过SO上报告的这个错误:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd1 in position 8: invalid continuation byte

阅读后,我尝试了此操作

dataset = pd.read_csv('iris.data.txt', header=None, names=names,encoding="ISO-8859-1")

这部分地解决了错误,但有些行仍然是垃圾。

然后,我尝试使用Sublime打开它,并使用utf-8编码保存,然后dataset = pd.read_csv('iris.data.txt', header=None, names=names,encoding="utf-8")

但这也不能解决问题。我在Mac OS上运行Python 3。有什么可能使数据直接可读?

[编辑]: 数据类型为:Web存档。在Spyder中,文件显示为iris.data.webarchive

如果我尝试dataset = pd.read_csv('iris.data.webarchive', header=None),它将给出此回溯:

ParserError: Error tokenizing data. C error: Expected 1 fields in line 2, saw 5

如果我尝试dataset = pd.read_csv('iris.data', header=None),它将得到FileNotFoundError: File b'iris.data' does not exist

1 个答案:

答案 0 :(得分:0)

我发现我的菜鸟错误。我必须将页面另存为“源”而不是“ webarchive”(这是Mac的默认设置)