我有以下格式的Word DOCX:
Title
- text
Title1
- Description
Title2
- Definition
- Table2
- text
Title3
- Definition
- Table3
- text
...
我正在使用python docx,并想获得"标题"与每个"表匹配#34; (即最接近表格的标题,因此title2与table2)。有办法做到这一点吗?
我知道我们可以像这样遍历文档:
for para in doc.paragraphs:
print(para.text)
但这会使标题与表格匹配变得困难。有没有更好的方法来做到这一点?
答案 0 :(得分:0)
GitHub问题列表中的这个主题可能会有所帮助: https://github.com/python-openxml/python-docx/issues/40
如果添加一个iter_block_items()函数,请确保在线程末尾使用该函数,因为它使用了可能发生变化的内部结构,所以它必须随着时间的推移而发展。