如何使用python

时间:2018-02-21 19:05:36

标签: python docx

实施例: 我的docx文件内容非常相似,如下所示

  

简介

     

一个。这是文字

     
      
  1. 这是第二个文字

         

    1.1更复杂的st

  2.   
  3. 是的

  4.         

    予。现在罗马

我想将输出存储在json数据结构中。以上应该是

输出

  

{'A':'这是文字','1':'这是第二个文字','1.1':'更复杂   st','2':'是的是','我':'现在罗马'}

我目前的代码是

from docx import Document

document = Document('myDoc.docx')

for para in document.paragraphs:
    print para.text

但是这段代码的问题是para.text不包含段落编号。它只包含段落内容。 例 对于段落“A.这是文本”,para.text仅包含“This is text”但我想要“A.这是文本”。

由于

2 个答案:

答案 0 :(得分:0)

使用python-docx模块

阅读如下数据:

from docx import Document


document = Document('test.docx')

for para in document.paragraphs:
    print para.text

获得数据后,您可以构建词典

答案 1 :(得分:0)

首先,使用加载项(https://github.com/thepankajsingh/extract-doc-add-ins)将Doc / Word转换为HTML。现在,您可以轻松解析HTML以获取键值对。