Question

我正在编写一个Python脚本来从网站提取PDF，循环它们，抓取它们的文本，然后对它们执行基本的自然语言处理。

我遇到了一个奇怪的问题：如果我在终端中使用PDFMiner＆＃39; pdf2txt.py命令，它运行正常。相反，我尝试在脚本本身循环我的文件，如下所示：

for url in papers:
     urllib.urlretrieve(url, DIR + "paper.pdf")
     os.system("pdf2text.py -o paper.txt -t text paper.pdf")

我收到以下错误：

sh：pdf2text.py：找不到命令

这与PATH，env vars有关吗？我甚至不知道从哪里开始。

我真的更喜欢pdf2txt而不是slate，因为后者会导致nltk出错（其他整个SO帖子，我猜）

Answer 1

问题是程序名称是pdf2txt.py，而不是pdf2text.py。