Pyspark:执行程序服务器上的python软件包

时间:2018-10-20 12:36:49

标签: pyspark

我刚开始与Pyspark合作开发新应用程序。 我用pip安装了在运行spark-submit的服务器中需要的所有软件包(我的应用程序的依赖性)。 我是否必须在其他Spark网关上安装我的应用程序的python软件包?

谢谢。

1 个答案:

答案 0 :(得分:0)

您必须在所有工作程序节点上安装软件包。您可以使用cssh使您的生活更轻松。

预先安装每个pip软件包的替代方法是使用requirements.txt(最好是虚拟环境)。要使用requirements.txt,只需使用以下参数启动spark-submit:

--conf spark.pyspark.virtualenv.enabled=true  
--conf spark.pyspark.virtualenv.type=native 
--conf spark.pyspark.virtualenv.requirements=/Users/jzhang/github/spark/requirements.txt 
--conf spark.pyspark.virtualenv.bin.path=/Users/jzhang/anaconda/bin/virtualenv 
--conf spark.pyspark.python=/usr/local/bin/python3 spark_virtualenv.py

请在2中找到更多信息。