此处,XML为xml='''<root>He<b>l<i>l</i>o</b>, <i>wo<b>r</b>ld!</i></root>'''
。
它应该打印“Hello,world!”
我正在使用Python lxml库来获取文本,但它不能像预期的字符串那样准确打印。 如果你有更好的想法从XML中获取文本,那将会有所帮助。
答案 0 :(得分:0)
试试这个:
from lxml import html
xml_data = '''<root>He<b>l<i>l</i>o</b>, <i>wo<b>r</b>ld!</i></root>'''
tree = html.fromstring(xml_data)
print ''.join(tree.xpath('//text()'))
注意:双斜线(//)是后轴或自身轴;它是/ descendant-or-self :: node()/
的缩写