带编解码器模块的Python中的UnicodeDecodeError

时间:2011-07-04 20:46:37

标签: python regex unicode

我有一个文本文件,其中包含unicode字符串“aBiyukÙwa”,“varcasÙva”等。当我尝试使用以下代码在python解释器中解码它们时,它工作正常并解码为u'aBiyuk\xd9wa'

"aBiyukÙwa".decode("utf-8")

但是当我使用以下代码中的codecs模块从python程序中的文件中读取它时,它会抛出UnicodeDecodeError

file = codecs.open('/home/abehl/TokenOutput.wx', 'r', 'utf-8')
for row in file:

以下是错误消息:

UnicodeDecodeError: 'utf8' codec can't decode byte 0xd9 in position 8: invalid continuation byte

任何想法是什么导致了这种奇怪的行为?

1 个答案:

答案 0 :(得分:5)

您的文件未以UTF-8编码。找出 编码的内容,然后使用它。