我正在尝试使用我的mac上的utf8打开带有日文字符的csv文件。
我使用的代码如下:
foo = pd.read_csv("filename.csv", encoding = 'utf8')
但是,我收到以下错误消息。
'utf-8' codec can't decode byte 0x96 in position 0
我已经尝试过四处寻找,但很多解决方案似乎都适用于Windows /我还没有其他解决方案取得任何成功。
感谢帮助!
答案 0 :(得分:1)
您的文件似乎确实有非unicode字符。此文件的正确编码很大程度上取决于其内容,但在最常见的情况下,可以使用CP-1252解码0x96。所以,只需尝试解码它如下:
foo = pd.read_csv("filename.csv", encoding = 'cp1252')
如果您不知道文件的原始编码,可以尝试使用第三方库(例如chardet)检测它。
如果你上传一大块文件来重现问题,我可能会帮你多一点。