我尝试使用lxml读取xml文件(从word文件中提取),但是没有用。此xml中的标签不同于HTML命名空间标签:始终以w:
作为前缀。
代码如下:
from lxml import etree
tree = etree.parse(r'C:\Users\Administrator\Desktop\word\document.xml')
aa=tree.xpath("//w:r")
print(aa)
和错误消息:
F:\ Anaconda3 \ python.exe F:/Projects/untitled1/item2.py追溯(大多数 最近一次通话):文件“ F:/Projects/untitled1/item2.py”,第3行,在 aa = tree.xpath(“ // w:r”)文件“ src / lxml / etree.pyx”,第2289行,位于lxml.etree._ElementTree.xpath(src \ lxml \ etree.c:69785)文件中 “ src / lxml / xpath.pxi”,第359行,在 lxml.etree.XPathDocumentEvaluator。呼叫(src \ lxml \ etree.c:179365)
文件“ src / lxml / xpath.pxi”,第227行 lxml.etree._XPathEvaluatorBase._handle_result (src \ lxml \ etree.c:177729)lxml.etree.XPathEvalError:未定义 命名空间前缀以退出代码1完成的过程