如何获取通过Python脚本传输的数据的源名称?

时间:2015-02-05 21:55:27

标签: python shell

我正在使用Apache Tika从URL中提取PDF内容,并将Tika发现的结果传递给Python脚本。我能够很好地获取内容,但我也希望能够获得我正在解析的URL。例如,运行:

java -jar /usr/local/tika-1.7/tika-app/target/tika-app-1.7.jar -J -t https://somewebsite.com/a_pdf_document.pdf | ./my_script.py

传递

[{"Content-Length":"1121070","Content-Type":"application/pdf","Creation-Date":"2014-11-13T12:39:52Z","Keywords": ... ]

my_script.py。但是,我还希望能够访问管道文件的位置,例如https://somewebsite.com/a_pdf_document.pdf

由于我正在处理数据,sys.argv将不起作用。我错过了什么可以做到这一点?

1 个答案:

答案 0 :(得分:3)

管道数据没有名称。

你有几个选择。

  1. 您可以将文件名作为参数传递给python脚本。
  2. 您可以将文件名存储在环境中。
  3. 您可以将文件名作为管道数据的一部分传递(使用分隔符)。