Question

我正在尝试使用xml.etree.ElementTree模块中的iterparse解析Medline xml文档。一切都运行良好，除了一些文本包括非ascii字符。我没有看到使用findtext处理unicode的方法。有什么建议吗？

Answer 1

您是否尝试使用utf8编码flah打开文件：

fd = open('some.xml', mode='r', encoding='utf-8')
xml.etree.ElementTree.iterparse(fd)

或者使用decode：

fd = open('some.xml', mode='r')
sio = StringIO(fd.read().decode("utf-8"))
xml.etree.ElementTree.iterparse(sio)

Answer 2

除了上面的答案之外，这是一个非常有用的帖子。