PySpark:如何在工作人员上安装linux命令行工具?

时间:2015-07-21 20:03:25

标签: python linux apache-spark pyspark poppler

我正在尝试使用Linux命令行工具' Poppler'从pdf文件中提取信息。我想为几个Spark工作者提供大量的PDF文件。我需要使用Popplers,而不是PyPDF或任何类似的东西。

有人知道如何在工人身上安装Poppler吗?我知道我可以在python中执行命令行调用,并获取输出(或者通过Poppler lib获取生成的文件),但是如何在每个worker上安装它?我使用spark 1.3.1(databricks)。

谢谢!

1 个答案:

答案 0 :(得分:1)

正确的方法是在最初设置它们时将其安装在所有工作人员上,就像安装任何其他Linux应用程序一样。正如您已经指出的那样,您可以在Python中进行shell。

如果由于某种原因这不是一个选项,那么您可以使用addFile方法将文件发送给所有工作人员:http://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.SparkContext.addFile

请注意,后一种方法不会处理依赖关系(库等)。