elementTree无法解析unicode xml

时间:2012-04-25 22:46:28

标签: python xml xml-parsing elementtree

我有以下xml:

<Earth>
 <country name="Česká republika" population="8900000">
    <capital>Praha1</capital>        
  </country>
</Earth>

但是当我尝试解析时失败并出现错误:

 xml.etree.ElementTree.ParseError: not well-formed (invalid token): line 2, column 20

我的代码:

 tree=etree.parse(input) # input -> file.xml

1 个答案:

答案 0 :(得分:1)

正如arhimmel所指出的,这个问题可能是一个编码问题。 etree.parse允许传递类似文件的对象和路径,因此您可以尝试在代码顶部添加import codecs,然后将input替换为codecs.open("file.xml", encoding="UTF-8")