如何在python中使用“ easytextract”模块从文档文件中提取文本

时间:2018-08-06 08:44:08

标签: python text-extraction doc

很久以来,我一直试图从doc文件中读取数据,因此我尝试了open()的python方法-

with open(filename, errors='ignore') as f:
print(f.read())

读取.doc文件,但有大量垃圾,由于我不知道从何处开始和从何处停止删除这些垃圾值,因此无法摆脱这些垃圾值。

还尝试安装Textract,但它需要MS Visual C++ 14.0,在我下载时,我不能安装,因为它不支持Windows 8。

然后我遇到了easytextract模块here,它说

  

易于使用的PDF,DOC,DOCX和其他文档中的文本提取器,包括必要时使用OCR(通过Tesseract)。

它还指出,您将需要antiword.exe从文档文件中提取文本。(我也找不到在Windows中安装antiword的安装说明)

然后我做了pip install easytextract并在我的python文件中导入了模块,但现在不知道如何使用它,任何帮助将不胜感激。

0 个答案:

没有答案