我一直在学习如何使用Python创建DOCX文件。 但是,我有一个文档,希望通过使用python自动执行常规编辑。编辑(删除或添加)需要基于excel电子表格中的条款进行。
我所拥有的文档大约25页,格式,表格,段落,标题和某些图像都不同。有没有一种方法可以将所有这些提取到python代码中,然后在其中我可以基于excel电子表格添加有关要打印或保留在docx文件中的内容的字词?
主要关注的是DOCX内容-> Python代码
示例: 如果我正在阅读的文档仅包含一段“测试” 该代码将生成一个单独的新代码,其内容如下: document.add_paragraph('Test')
答案 0 :(得分:0)
取决于您要如何处理文本。如果要“原位”放回docx,则需要查看python-docx
或编辑xml本身。
如果您愿意从一堆文本中重建树形文档结构,则几个python库将为您提取文本(python-docx,docx2txt,docx2python)。
这是在docx2python中编辑文本的方式
from docx2python import docx2python
from docx2python.iterators import enum_paragraphs
content = docx2python('input.docx').document
for (i, j, k), paragraph in enum_paragraphs(content):
content[i][j][k] = transforming_function(paragraph)