如何从python中的docx文件中获取文本?优选地,这会将其导入简单的字符串。显然,原始文件中的格式可以忽略。
我理解docx文件的结构(文本保存为document.xml
的文件夹),但我想要一种简单的方法来提取文本,而不必手动打开该文件夹,提取文件并提取段落标签。
我已尝试Python Docx(根据this old stackoverflow question),但每次都会收到错误:
import docx as dx
document = dx.opendocx('files/file.docx')
Traceback (most recent call last):
File "concord.py", line 2, in <module>
document = dx.opendocx('files/#n01 ch B3A126.docx')
AttributeError: 'module' object has no attribute 'opendocx'