问题陈述:从.docx文件中提取节,包括自动编号。
我尝试使用python-docx从.docx文件中提取文本,但是它不包括自动编号功能。
from docx import Document
document = Document("wadali.docx")
def iter_items(paragraphs):
for paragraph in document.paragraphs:
if paragraph.style.name.startswith('Agt'):
yield paragraph
if paragraph.style.name.startswith('TOC'):
yield paragraph
if paragraph.style.name.startswith('Heading'):
yield paragraph
if paragraph.style.name.startswith('Title'):
yield paragraph
if paragraph.style.name.startswith('Heading'):
yield paragraph
if paragraph.style.name.startswith('Table Normal'):
yield paragraph
if paragraph.style.name.startswith('List'):
yield paragraph
for item in iter_items(document.paragraphs):
print item.text
答案 0 :(得分:2)
有一个docx2python软件包,它以更简单的方式执行此操作:pypi.org/project/docx2python /
以下代码:
from docx2python import docx2python
document = docx2python("C:/input/MyDoc.docx")
print(document.body)
产生一个列表,该列表以一种可解析的方式包含包含项目符号列表的内容。