Question

我有一个文本文件，其中包含unicode字符串“aBiyukÙwa”，“varcasÙva”等。当我尝试使用以下代码在python解释器中解码它们时，它工作正常并解码为u'aBiyuk\xd9wa'：

"aBiyukÙwa".decode("utf-8")

但是当我使用以下代码中的codecs模块从python程序中的文件中读取它时，它会抛出UnicodeDecodeError。

file = codecs.open('/home/abehl/TokenOutput.wx', 'r', 'utf-8')
for row in file:

以下是错误消息：

UnicodeDecodeError: 'utf8' codec can't decode byte 0xd9 in position 8: invalid continuation byte

任何想法是什么导致了这种奇怪的行为？

Answer 1

您的文件未以UTF-8编码。找出编码的内容，然后使用它。