如何提取word文档中的Section的主体?蟒蛇

时间:2018-06-11 15:44:43

标签: python python-3.x nlp python-docx

我有一份具有以下结构的文件。

INPUT: Screenshot

输出:

Text
Text
Text
I want to extract this body

在上图中,我想用Python提取第一条和第二条的文本。 这些文章实际上是部分,您可以在左侧导航中看到它。那些不是原始文本,我不能选择文章,它就像子弹一样。我尝试了以下代码,我在StackOverflow上找到了它。

import docx
document = docx.Document("rwi.docx")

for paragraph in document.paragraphs:
    if paragraph.style.name == 'Heading 1':
        print(paragraph.text)

但这只是打印标题标题而不是标题的正文(文本)。如何提取标题的正文?

0 个答案:

没有答案