截至目前,我正在使用Python-docx将.docx文件中的文本转换为单个字符串。
f = open(os.path.expanduser("~/documents/myFile.docx"))
document = opendocx(f)
docString = ''.join(getdocumenttext(document))
然后我使用简单的内置Python拆分方法解析字符串。 将字符串解析为列表后,我将该列表加载到MySQL数据库中。这很好用,但我唯一的问题是我想保留特殊字符。
数据库支持这些特殊字符(utf-8),但是当我将.docx转换为字符串时,很多字符和格式(斜体,粗体等)都会丢失。
我希望能够从.docx文件中解析并加载格式完整的文本。