我有一份具有以下结构的文件。
输出:
Text
Text
Text
I want to extract this body
在上图中,我想用Python提取第一条和第二条的文本。 这些文章实际上是部分,您可以在左侧导航中看到它。那些不是原始文本,我不能选择文章,它就像子弹一样。我尝试了以下代码,我在StackOverflow上找到了它。
import docx
document = docx.Document("rwi.docx")
for paragraph in document.paragraphs:
if paragraph.style.name == 'Heading 1':
print(paragraph.text)
但这只是打印标题标题而不是标题的正文(文本)。如何提取标题的正文?