以下代码行:
file = pd.read_csv('okstodo.csv')
给我以下错误:
UnicodeDecodeError Traceback (most recent call last) pandas/_libs/parsers.pyx
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 0: invalid start byte
答案 0 :(得分:1)
尝试一下。
data = pd.read_csv("okstodo.csv", encoding = 'unicode_escape', engine ='python')
也请检查standard-encodings在熊猫中的使用情况。
答案 1 :(得分:0)
read_csv
使用编码选项来处理不同格式的文件。我主要使用read_csv('file',encoding =“ ISO-8859-1”),或者编码=“ utf-8”进行读取,通常使用utf-8进行to_csv。
您还可以使用诸如“拉丁”而不是“ ISO-8859-1”之类的几种别名选项之一(请参阅python文档,有关可能遇到的许多其他编码)。
请参阅相关的Pandas文档,关于csv文件的python文档示例以及有关SO的许多相关问题。一个很好的背景资源是每个开发人员应该了解的Unicode和字符集。
要检测编码(假设文件包含非ASCII字符),可以使用enca(请参见手册页)或文件-i(Linux)或文件-I(osx)(请参见手册页)。