应用错误收集

很久以来，我一直试图从doc文件中读取数据，因此我尝试了open()的python方法-

with open(filename, errors='ignore') as f:
print(f.read())

读取.doc文件，但有大量垃圾，由于我不知道从何处开始和从何处停止删除这些垃圾值，因此无法摆脱这些垃圾值。

还尝试安装Textract，但它需要MS Visual C++ 14.0，在我下载时，我不能安装，因为它不支持Windows 8。

然后我遇到了easytextract模块here，它说

易于使用的PDF，DOC，DOCX和其他文档中的文本提取器，包括必要时使用OCR（通过Tesseract）。

它还指出，您将需要antiword.exe从文档文件中提取文本。（我也找不到在Windows中安装antiword的安装说明）

然后我做了pip install easytextract并在我的python文件中导入了模块，但现在不知道如何使用它，任何帮助将不胜感激。