Question

我尝试使用this网页上的代码从Python文档中提取XML。

我首先创建了一个名为test.docx的测试文档。然后我运行了以下代码：

import zipfile
from lxml import etree

def getXml(docxFilename):
    zip = zipfile.ZipFile(open(docxFilename))
    xmlContent = zip.read("word/document.xml")
    return xmlContent

def getXmlTree(xmlContent):
    return etree.fromstring(xmlContent)

testXml = getXml("test.docx")
print(getXmlTree(testXml))

运行此代码会产生错误消息＆＃34;文件不是zip文件＆＃34;。我做错了什么？

Answer 1

您需要将 docx 文件的路径作为参数传递，而不是特别是 docx 文件。压缩文件并将路径设为zip格式

例如： "D:/Users/John/docs/data.zip"

使用Python从Word文档中提取XML的困难

1 个答案: