所以我在导入一个csv文件时遇到了这个问题(它与我的Python 3文件在同一目录中)

时间:2020-03-17 05:28:32

标签: python pandas unicode decode

以下代码行:

file = pd.read_csv('okstodo.csv')

给我以下错误:


UnicodeDecodeError Traceback (most recent call last) pandas/_libs/parsers.pyx 
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 0: invalid start byte

2 个答案:

答案 0 :(得分:1)

尝试一下。

data = pd.read_csv("okstodo.csv", encoding = 'unicode_escape', engine ='python')

也请检查standard-encodings在熊猫中的使用情况。

答案 1 :(得分:0)

read_csv使用编码选项来处理不同格式的文件。我主要使用read_csv('file',encoding =“ ISO-8859-1”),或者编码=“ utf-8”进行读取,通常使用utf-8进行to_csv。

您还可以使用诸如“拉丁”而不是“ ISO-8859-1”之类的几种别名选项之一(请参阅python文档,有关可能遇到的许多其他编码)。

请参阅相关的Pandas文档,关于csv文件的python文档示例以及有关SO的许多相关问题。一个很好的背景资源是每个开发人员应该了解的Unicode和字符集。

要检测编码(假设文件包含非ASCII字符),可以使用enca(请参见手册页)或文件-i(Linux)或文件-I(osx)(请参见手册页)。