应用错误收集

时间：2015-07-21 20:03:25

标签： python linux apache-spark pyspark poppler

我正在尝试使用Linux命令行工具＆＃39; Poppler＆＃39;从pdf文件中提取信息。我想为几个Spark工作者提供大量的PDF文件。我需要使用Popplers，而不是PyPDF或任何类似的东西。

有人知道如何在工人身上安装Poppler吗？我知道我可以在python中执行命令行调用，并获取输出（或者通过Poppler lib获取生成的文件），但是如何在每个worker上安装它？我使用spark 1.3.1（databricks）。

谢谢！

答案 0 :(得分：1)

正确的方法是在最初设置它们时将其安装在所有工作人员上，就像安装任何其他Linux应用程序一样。正如您已经指出的那样，您可以在Python中进行shell。

如果由于某种原因这不是一个选项，那么您可以使用addFile方法将文件发送给所有工作人员：http://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.SparkContext.addFile

请注意，后一种方法不会处理依赖关系（库等）。