从.doc(不是docx)中提取文本

时间:2017-04-20 12:15:22

标签: python doc

我在stackoverflow和其他人检查过mose问题和答案有许多方法可以打开并阅读.docx文件而不是使用python

我已经检查了python-docx库,但它只支持docx。

我想打开并从.doc文件(不是docx)中提取文本。 Plase帮助我因为我是python中的新手

1 个答案:

答案 0 :(得分:0)

你可以使用Tika Python,它是python的Apache Tika绑定。另一个好的图书馆是textract