实施例: 我的docx文件内容非常相似,如下所示
简介
一个。这是文字
这是第二个文字
1.1更复杂的st
- 醇>
是的
予。现在罗马
我想将输出存储在json数据结构中。以上应该是
输出
{'A':'这是文字','1':'这是第二个文字','1.1':'更复杂 st','2':'是的是','我':'现在罗马'}
我目前的代码是
from docx import Document
document = Document('myDoc.docx')
for para in document.paragraphs:
print para.text
但是这段代码的问题是para.text不包含段落编号。它只包含段落内容。 例 对于段落“A.这是文本”,para.text仅包含“This is text”但我想要“A.这是文本”。
由于
答案 0 :(得分:0)
使用python-docx模块
阅读如下数据:
from docx import Document
document = Document('test.docx')
for para in document.paragraphs:
print para.text
获得数据后,您可以构建词典
答案 1 :(得分:0)
首先,使用加载项(https://github.com/thepankajsingh/extract-doc-add-ins)将Doc / Word转换为HTML。现在,您可以轻松解析HTML以获取键值对。