从python中的docx获取文本

时间:2012-09-22 16:15:54

标签: python input ms-word python-docx

如何从python中的docx文件中获取文本?优选地,这会将其导入简单的字符串。显然,原始文件中的格式可以忽略。

我理解docx文件的结构(文本保存为document.xml的文件夹),但我想要一种简单的方法来提取文本,而不必手动打开该文件夹,提取文件并提取段落标签。

我已尝试Python Docx(根据this old stackoverflow question),但每次都会收到错误:

import docx as dx
document = dx.opendocx('files/file.docx')

Traceback (most recent call last):
  File "concord.py", line 2, in <module>
    document = dx.opendocx('files/#n01 ch B3A126.docx')
AttributeError: 'module' object has no attribute 'opendocx'

0 个答案:

没有答案