xml.etree.ElementTree和unicode findtext

时间:2011-11-03 13:41:43

标签: python xml unicode elementtree

我正在尝试使用xml.etree.ElementTree模块中的iterparse解析Medline xml文档。一切都运行良好,除了一些文本包括非ascii字符。我没有看到使用findtext处理unicode的方法。有什么建议吗?

2 个答案:

答案 0 :(得分:2)

您是否尝试使用utf8编码flah打开文件:

fd = open('some.xml', mode='r', encoding='utf-8')
xml.etree.ElementTree.iterparse(fd)

或者使用decode:

fd = open('some.xml', mode='r')
sio = StringIO(fd.read().decode("utf-8"))
xml.etree.ElementTree.iterparse(sio)

答案 1 :(得分:0)

除了上面的答案之外,这是一个非常有用的帖子。

Reading utf-8 characters from a gzip file in python