Spark:通过Spark-submit提交将诸如pandas之类的软件包发送到所有节点

时间:2018-07-18 18:10:05

标签: apache-spark pyspark conda

我有一个运行pyspark的Spark作业。我可以传入一个脚本,它将使用任何其他参数(例如executor-memory,driver-cores)spark-submit spark-test1.py --executor-memory 10G --executor-cores 4 --driver-memory 12G --driver-cores 8来执行。

注意-在下面的示例中,我将使用熊猫,但它不仅限于熊猫。可以是任意任意的程序包,也可以是需要传递到每个节点的程序包数量。

当我在脚本import pandas as pd中包含命令时,作业将失败。 ImportError: No module named panda

现在,我可以在安装了熊猫的conda环境中传递某种--参数,还是可以将路径添加到panadas软件包中?

谢谢

1 个答案:

答案 0 :(得分:0)

您可以使用--py-files命令传递egg文件。因此,您的命令看起来像- spark-submit spark-test1.py --executor-memory 10G --executor-cores 4 --driver-memory 12G --driver-cores 8 --py-files