Question

实施例：我的docx文件内容非常相似，如下所示

简介

一个。这是文字



这是第二个文字

1.1更复杂的st



是的


予。现在罗马

我想将输出存储在json数据结构中。以上应该是

输出

{'A'：'这是文字'，'1'：'这是第二个文字'，'1.1'：'更复杂 st'，'2'：'是的是'，'我'：'现在罗马'}

我目前的代码是

from docx import Document

document = Document('myDoc.docx')

for para in document.paragraphs:
    print para.text

但是这段代码的问题是para.text不包含段落编号。它只包含段落内容。例对于段落“A.这是文本”，para.text仅包含“This is text”但我想要“A.这是文本”。

由于

Answer 1

使用python-docx模块

阅读如下数据：

from docx import Document


document = Document('test.docx')

for para in document.paragraphs:
    print para.text

获得数据后，您可以构建词典

Answer 2

首先，使用加载项（https://github.com/thepankajsingh/extract-doc-add-ins）将Doc / Word转换为HTML。现在，您可以轻松解析HTML以获取键值对。