无法解码奇怪的Xml文件

时间:2013-01-06 17:06:50

标签: python character-encoding python-3.x xml-parsing

我必须解析一些xml输出(从请求到网站),如下图所示。它们部分使用英语,部分使用法语。我无法解码和打印(在屏幕上,文件上)法语口音,如'é'或'à'

当我使用decode('utf-8')时,我的结果错误,例如'è'。我正在使用python 3.3。

b'Extr\xc3\x83\xc2\xaamement fort et incroyablement pr\xc3\x83\xc2\xa8s</title><originaltitle>Extremely Loud And Incredibly Close</originaltitle><year>2011</year><runtime>0</runtime><directors><director>Stephen Daldry</director></directors><plot>Oskar Schell, 11 ans, est un jeune New-Yorkais \xc3\x83\xc2\xa0 l\'imagination d\xc3\x83\xc2\xa9bordante. Un an apr\xc3\x83\xc2\xa8s la...</plot></movie></results>\n'

1 个答案:

答案 0 :(得分:5)

您粘贴的字节字符串是双重编码的,

byteStrInYourQuestion.decode('utf-8').encode("ISO-8859-1").decode("utf-8")

应该有用。