使用python-docx从docx文档中提取标题/节号

时间:2019-04-10 16:39:54

标签: python docx python-docx

使用python-docx包,我能够提取标题文本,但不能提取标题编号。我在Google或stackoverflow上找不到有关如何从docx文档中提取此内容的任何解决方案。因此,我建立了一个变通办法来自己跟踪标题编号。不幸的是,该算法有时会失踪。

现在,我想知道是否存在使用docx包提取标题编号的更好方法。

因此在像1. foo 2. bar 2.1这样的节结构上。巴兹

我要提取['1。 foo”,“ 2。 bar”,“ 2.1。 baz']

#Iterate through all paragraphs
for paragraph in target_doc.paragraphs:
    #Display all headers
    if 'Heading ' in paragraph .style.name:
        print(paragraph .text)

具有上述代码的docx软件包将生成['foo','bar','baz']。似乎找不到标题编号。

0 个答案:

没有答案