很久以来,我一直试图从doc文件中读取数据,因此我尝试了open()
的python方法-
with open(filename, errors='ignore') as f:
print(f.read())
读取.doc
文件,但有大量垃圾,由于我不知道从何处开始和从何处停止删除这些垃圾值,因此无法摆脱这些垃圾值。
还尝试安装Textract
,但它需要MS Visual C++ 14.0
,在我下载时,我不能安装,因为它不支持Windows 8。
然后我遇到了easytextract
模块here,它说
易于使用的PDF,DOC,DOCX和其他文档中的文本提取器,包括必要时使用OCR(通过Tesseract)。
它还指出,您将需要antiword.exe
从文档文件中提取文本。(我也找不到在Windows中安装antiword
的安装说明)
然后我做了pip install easytextract
并在我的python文件中导入了模块,但现在不知道如何使用它,任何帮助将不胜感激。