Question

我有一个关于UnicodeDecodeError的快速问题：无效的起始字节。我认为我文本中的某处有非UTF-8字符，但错误信息的位置是读取文件的起点，所以我不知道如何修复它。

如果您有任何建议，请告诉我

以下是我从python返回的错误消息。

for line in fi:
  File "/Library/Frameworks/Python.framework/Versions/3.4/lib/python3.4/codecs.py", line 313, in decode
    (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0x80 in position 3131: invalid start byte

以下是我的代码：

for filename in os.listdir(readDir):
    filename = os.path.join(readDir, filename)
    for keyword in keywords:
        outFileName = os.path.join(sortDir, keyword)
        outFileName = outFileName+'.csv'

        with open(filename, 'r') as fi, open(outFileName, "a") as fo:
            for line in fi:

Answer 1

我有同样的问题，经过一段时间的搜索后我做了什么

import sys

#Set default encoder 
sys.setdefaultencoding("ISO-8859-1")

#Then convert string to UTF-8
yourString.encode('utf-8').strip()

我希望它对某人有用

UnicodeDecodeError：无效的起始字节

1 个答案: