使用python-docx包,我能够提取标题文本,但不能提取标题编号。我在Google或stackoverflow上找不到有关如何从docx文档中提取此内容的任何解决方案。因此,我建立了一个变通办法来自己跟踪标题编号。不幸的是,该算法有时会失踪。
现在,我想知道是否存在使用docx包提取标题编号的更好方法。
因此在像1. foo 2. bar 2.1这样的节结构上。巴兹
我要提取['1。 foo”,“ 2。 bar”,“ 2.1。 baz']
#Iterate through all paragraphs
for paragraph in target_doc.paragraphs:
#Display all headers
if 'Heading ' in paragraph .style.name:
print(paragraph .text)
具有上述代码的docx软件包将生成['foo','bar','baz']。似乎找不到标题编号。