有什么方法可以读取.docx文件,包括使用python-docx自动编号

时间:2018-08-30 09:59:36

标签: python docx python-docx

问题陈述:从.docx文件中提取节,包括自动编号。

我尝试使用python-docx从.docx文件中提取文本,但是它不包括自动编号功能。

from docx import Document

document = Document("wadali.docx")


def iter_items(paragraphs):
    for paragraph in document.paragraphs:
        if paragraph.style.name.startswith('Agt'):
            yield paragraph
        if paragraph.style.name.startswith('TOC'):
            yield paragraph
        if paragraph.style.name.startswith('Heading'):
            yield paragraph
        if paragraph.style.name.startswith('Title'):
            yield paragraph
        if paragraph.style.name.startswith('Heading'):
            yield paragraph
        if paragraph.style.name.startswith('Table Normal'):
            yield paragraph
        if paragraph.style.name.startswith('List'):
            yield paragraph


for item in iter_items(document.paragraphs):
    print item.text

1 个答案:

答案 0 :(得分:2)

有一个docx2python软件包,它以更简单的方式执行此操作:pypi.org/project/docx2python /

以下代码:

from docx2python import docx2python
document = docx2python("C:/input/MyDoc.docx")
print(document.body)

产生一个列表,该列表以一种可解析的方式包含包含项目符号列表的内容。