我正在使用Apache Tika从URL中提取PDF内容,并将Tika发现的结果传递给Python脚本。我能够很好地获取内容,但我也希望能够获得我正在解析的URL。例如,运行:
java -jar /usr/local/tika-1.7/tika-app/target/tika-app-1.7.jar -J -t https://somewebsite.com/a_pdf_document.pdf | ./my_script.py
传递
[{"Content-Length":"1121070","Content-Type":"application/pdf","Creation-Date":"2014-11-13T12:39:52Z","Keywords": ... ]
到my_script.py
。但是,我还希望能够访问管道文件的位置,例如https://somewebsite.com/a_pdf_document.pdf
。
由于我正在处理数据,sys.argv
将不起作用。我错过了什么可以做到这一点?
答案 0 :(得分:3)
管道数据没有名称。
你有几个选择。