我正在编写一个Python脚本来从网站提取PDF,循环它们,抓取它们的文本,然后对它们执行基本的自然语言处理。
我遇到了一个奇怪的问题:如果我在终端中使用PDFMiner' pdf2txt.py
命令,它运行正常。相反,我尝试在脚本本身循环我的文件,如下所示:
for url in papers:
urllib.urlretrieve(url, DIR + "paper.pdf")
os.system("pdf2text.py -o paper.txt -t text paper.pdf")
我收到以下错误:
sh:pdf2text.py:找不到命令
这与PATH,env vars有关吗?我甚至不知道从哪里开始。
我真的更喜欢pdf2txt
而不是slate
,因为后者会导致nltk
出错(其他整个SO帖子,我猜)
答案 0 :(得分:2)
问题是程序名称是pdf2txt.py
,而不是pdf2text.py
。