包装像pyspark的罐子

时间:2016-06-09 14:02:37

标签: python apache-spark jar pyspark yarn

我有一个带有python脚本的pyspark项目,该脚本运行spark-streaming。我有一些外部依赖项,我使用--packages标志运行。

但是,在scala中,我们可以使用maven下载所有必需的包,使用主要的spark程序制作一个jar文件,并将所有内容放在一个jar中,然后使用spark-submit将其提交给集群(yarn在我的情况下)。

pyspark有jar类似的东西吗?

关于spark的官方文档没有此类信息。他们只是提到使用spark-submit <python-file>或添加--py-files,但它不像jar文件那么专业。

任何建议都会有所帮助!谢谢!

1 个答案:

答案 0 :(得分:1)

文档说你可以使用zip或egg。

  

对于Python应用程序,只需传递一个.py文件而不是JAR,并使用--py-files将Python .zip,.egg或.py文件添加到搜索路径中。

Source

您可能还会发现other parameters很有用。