我刚开始与Pyspark合作开发新应用程序。 我用pip安装了在运行spark-submit的服务器中需要的所有软件包(我的应用程序的依赖性)。 我是否必须在其他Spark网关上安装我的应用程序的python软件包?
谢谢。
答案 0 :(得分:0)
您必须在所有工作程序节点上安装软件包。您可以使用cssh使您的生活更轻松。
预先安装每个pip软件包的替代方法是使用requirements.txt(最好是虚拟环境)。要使用requirements.txt,只需使用以下参数启动spark-submit:
--conf spark.pyspark.virtualenv.enabled=true
--conf spark.pyspark.virtualenv.type=native
--conf spark.pyspark.virtualenv.requirements=/Users/jzhang/github/spark/requirements.txt
--conf spark.pyspark.virtualenv.bin.path=/Users/jzhang/anaconda/bin/virtualenv
--conf spark.pyspark.python=/usr/local/bin/python3 spark_virtualenv.py
请在2中找到更多信息。