将DOCX中的内容提取到Python代码中

时间:2019-07-09 21:46:43

标签: python excel python-3.x docx

我一直在学习如何使用Python创建DOCX文件。 但是,我有一个文档,希望通过使用python自动执行常规编辑。编辑(删除或添加)需要基于excel电子表格中的条款进行。

我所拥有的文档大约25页,格式,表格,段落,标题和某些图像都不同。有没有一种方法可以将所有这些提取到python代码中,然后在其中我可以基于excel电子表格添加有关要打印或保留在docx文件中的内容的字词?

主要关注的是DOCX内容-> Python代码

示例: 如果我正在阅读的文档仅包含一段“测试” 该代码将生成一个单独的新代码,其内容如下: document.add_paragraph('Test')

1 个答案:

答案 0 :(得分:0)

取决于您要如何处理文本。如果要“原位”放回docx,则需要查看python-docx或编辑xml本身。

如果您愿意从一堆文本中重建树形文档结构,则几个python库将为您提取文本(python-docx,docx2txt,docx2python)。

这是在docx2python中编辑文本的方式

from docx2python import docx2python
from docx2python.iterators import enum_paragraphs

content = docx2python('input.docx').document

for (i, j, k), paragraph in enum_paragraphs(content):
    content[i][j][k] = transforming_function(paragraph)