我正在尝试以各种方式从.doc,.docx和.pdf文件中获取文本的速度测试,并遇到了textract
for Python,这看起来很有希望。我已经在Kali Linux(Debian)上安装了textract
及其所有依赖项,我只是想运行一个简单的测试:
import os
import sys
import textract
text = textract.process("/home/owain/Documents/Documents/file.doc")
我将文件textract.py
命名为Converting .doc to pure text using Python
我遇到的错误
kali@Kali:~/Scripts/TestScripts$ time python tttt.py Traceback (most recent call last): File "tttt.py", line 3, in <module> import textract File "/home/owain/Scripts/TestScripts/textract.py", line 4, in <module> AttributeError: 'module' object has no attribute 'process'
因此,我删除了textract
,删除了textract.py文件,然后重新安装了textract
。这没有用,因为我仍然遇到相同的上述错误,即使该文件不再存在。不确定从这里去哪里,所以我们将不胜感激!