我有一个文本文件,其中包含unicode字符串“aBiyukÙwa”,“varcasÙva”等。当我尝试使用以下代码在python解释器中解码它们时,它工作正常并解码为u'aBiyuk\xd9wa'
:
"aBiyukÙwa".decode("utf-8")
但是当我使用以下代码中的codecs
模块从python程序中的文件中读取它时,它会抛出UnicodeDecodeError
。
file = codecs.open('/home/abehl/TokenOutput.wx', 'r', 'utf-8')
for row in file:
以下是错误消息:
UnicodeDecodeError: 'utf8' codec can't decode byte 0xd9 in position 8: invalid continuation byte
任何想法是什么导致了这种奇怪的行为?
答案 0 :(得分:5)
您的文件未以UTF-8编码。找出 编码的内容,然后使用它。