Question

以下代码行：

file = pd.read_csv('okstodo.csv')

给我以下错误：

UnicodeDecodeError Traceback (most recent call last) pandas/_libs/parsers.pyx 
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 0: invalid start byte

Answer 1

尝试一下。

data = pd.read_csv("okstodo.csv", encoding = 'unicode_escape', engine ='python')

也请检查standard-encodings在熊猫中的使用情况。

Answer 2

read_csv使用编码选项来处理不同格式的文件。我主要使用read_csv（'file'，encoding =“ ISO-8859-1”），或者编码=“ utf-8”进行读取，通常使用utf-8进行to_csv。

您还可以使用诸如“拉丁”而不是“ ISO-8859-1”之类的几种别名选项之一（请参阅python文档，有关可能遇到的许多其他编码）。

请参阅相关的Pandas文档，关于csv文件的python文档示例以及有关SO的许多相关问题。一个很好的背景资源是每个开发人员应该了解的Unicode和字符集。

要检测编码（假设文件包含非ASCII字符），可以使用enca（请参见手册页）或文件-i（Linux）或文件-I（osx）（请参见手册页）。

所以我在导入一个csv文件时遇到了这个问题（它与我的Python 3文件在同一目录中）

2 个答案: