UnicodeDecodeError:' utf-8'编解码器不能解码位置3中的字节0xcc:无效的连续字节

时间:2017-08-03 19:10:03

标签: pandas csv unicode load python-unicode

我尝试使用pd.read_csv加载csv文件,但是我收到以下unicode错误:

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xcc in position 3: invalid continuation byte

3 个答案:

答案 0 :(得分:14)

不幸的是,CSV文件没有内置的信令字符编码方法。

read_csv默认猜测CSV文件中的字节表示以UTF-8编码编码的文本。如果文件使用某些其他编码导致字节不是有效的UTF-8序列,则会导致UnicodeDecodeError。 (如果幸运的是它们也恰好是有效的UTF-8,你就不会得到错误,但你仍然会得到非ASCII字符的错误输入,这实际上会更糟。)

由您来指定正在使用的编码,这需要一些知识(或猜测)来自哪里。例如,如果它来自西方安装的Windows上的MS Excel,它可能是Windows代码页1252,您可以阅读它:

pd.read_csv('../filename.csv', encoding='cp1252')

答案 1 :(得分:0)

我遇到以下错误

  

UnicodeDecodeError:“ utf-8”编解码器无法解码位置中的字节0xe9   51:无效的连续字节

这是因为我对文件及其编码进行了更改。您还可以尝试使用某些代码或ubuntu中的nqq编辑器将文件的编码更改为utf-8,因为它提供了用于更改编码的目录选项。如果问题仍然存在,请尝试撤消对该文件所做的所有更改或更改目录。

希望这会有所帮助

答案 2 :(得分:0)

复制代码,打开一个新的.py文件,然后输入代码并保存。