使用python-docx检索具有文档结构的文档内容

时间:2017-04-26 14:33:39

标签: python docx python-docx

我必须从docx文件中检索表格和上一个/下一个段落,但无法想象如何使用python-docx

来获取

我可以按document.paragraphs

获取段落列表

我可以按document.tables

获取表格列表

如何获得像这样的文档元素的有序列表

[
Paragraph1,
Paragraph2,
Table1,
Paragraph3,
Table3,
Paragraph4,
...
]?

2 个答案:

答案 0 :(得分:2)

n尚未获得API支持;有趣的是,Microsoft Word API也没有。

但您可以使用以下代码解决此问题。请注意,它有点脆弱,因为它使用了可能会发生变化的python-docx内部构件,但我预计它在可预见的未来会正常工作:

python-docx

这里有更多关于此的讨论:
https://github.com/python-openxml/python-docx/issues/276

答案 1 :(得分:0)

已解析为属性Document.story,包含文档顺序中的段落和表格

https://github.com/python-openxml/python-docx/pull/395

document = Document('test.docx')
document.story