我正在尝试使用xml.etree.ElementTree模块中的iterparse解析Medline xml文档。一切都运行良好,除了一些文本包括非ascii字符。我没有看到使用findtext处理unicode的方法。有什么建议吗?
答案 0 :(得分:2)
您是否尝试使用utf8编码flah打开文件:
fd = open('some.xml', mode='r', encoding='utf-8')
xml.etree.ElementTree.iterparse(fd)
或者使用decode:
fd = open('some.xml', mode='r')
sio = StringIO(fd.read().decode("utf-8"))
xml.etree.ElementTree.iterparse(sio)
答案 1 :(得分:0)
除了上面的答案之外,这是一个非常有用的帖子。