我正在尝试使用Linux命令行工具' Poppler'从pdf文件中提取信息。我想为几个Spark工作者提供大量的PDF文件。我需要使用Popplers,而不是PyPDF或任何类似的东西。
有人知道如何在工人身上安装Poppler吗?我知道我可以在python中执行命令行调用,并获取输出(或者通过Poppler lib获取生成的文件),但是如何在每个worker上安装它?我使用spark 1.3.1(databricks)。
谢谢!
答案 0 :(得分:1)
正确的方法是在最初设置它们时将其安装在所有工作人员上,就像安装任何其他Linux应用程序一样。正如您已经指出的那样,您可以在Python中进行shell。
如果由于某种原因这不是一个选项,那么您可以使用addFile
方法将文件发送给所有工作人员:http://spark.apache.org/docs/latest/api/python/pyspark.html#pyspark.SparkContext.addFile
请注意,后一种方法不会处理依赖关系(库等)。