Question

问题陈述：从.docx文件中提取节，包括自动编号。

我尝试使用python-docx从.docx文件中提取文本，但是它不包括自动编号功能。

from docx import Document

document = Document("wadali.docx")


def iter_items(paragraphs):
    for paragraph in document.paragraphs:
        if paragraph.style.name.startswith('Agt'):
            yield paragraph
        if paragraph.style.name.startswith('TOC'):
            yield paragraph
        if paragraph.style.name.startswith('Heading'):
            yield paragraph
        if paragraph.style.name.startswith('Title'):
            yield paragraph
        if paragraph.style.name.startswith('Heading'):
            yield paragraph
        if paragraph.style.name.startswith('Table Normal'):
            yield paragraph
        if paragraph.style.name.startswith('List'):
            yield paragraph


for item in iter_items(document.paragraphs):
    print item.text

Answer 1

有一个docx2python软件包，它以更简单的方式执行此操作：pypi.org/project/docx2python /

以下代码：

from docx2python import docx2python
document = docx2python("C:/input/MyDoc.docx")
print(document.body)

产生一个列表，该列表以一种可解析的方式包含包含项目符号列表的内容。

有什么方法可以读取.docx文件，包括使用python-docx自动编号

1 个答案: