Question

我正在尝试以各种方式从.doc，.docx和.pdf文件中获取文本的速度测试，并遇到了textract for Python，这看起来很有希望。我已经在Kali Linux（Debian）上安装了textract及其所有依赖项，我只是想运行一个简单的测试：

import os
import sys
import textract 

text = textract.process("/home/owain/Documents/Documents/file.doc")

我将文件textract.py命名为Converting .doc to pure text using Python

，然后发现文件中断了。

我遇到的错误

kali@Kali:~/Scripts/TestScripts$ time python tttt.py
Traceback (most recent call last):
  File "tttt.py", line 3, in <module>
    import textract   
  File "/home/owain/Scripts/TestScripts/textract.py", line 4, in <module>
AttributeError: 'module' object has no attribute 'process'

因此，我删除了textract，删除了textract.py文件，然后重新安装了textract。这没有用，因为我仍然遇到相同的上述错误，即使该文件不再存在。不确定从这里去哪里，所以我们将不胜感激！

Textract-AttributeError：“模块”对象没有属性“进程”-指向不存在的文件

0 个答案: