应用错误收集

Spark：通过Spark-submit提交将诸如pandas之类的软件包发送到所有节点

时间：2018-07-18 18:10:05

标签： apache-spark pyspark conda

我有一个运行pyspark的Spark作业。我可以传入一个脚本，它将使用任何其他参数（例如executor-memory，driver-cores）spark-submit spark-test1.py --executor-memory 10G --executor-cores 4 --driver-memory 12G --driver-cores 8来执行。

注意-在下面的示例中，我将使用熊猫，但它不仅限于熊猫。可以是任意任意的程序包，也可以是需要传递到每个节点的程序包数量。

当我在脚本import pandas as pd中包含命令时，作业将失败。 ImportError: No module named panda。

现在，我可以在安装了熊猫的conda环境中传递某种--参数，还是可以将路径添加到panadas软件包中？

谢谢

1 个答案:

答案 0 :(得分：0)

您可以使用--py-files命令传递egg文件。因此，您的命令看起来像- spark-submit spark-test1.py --executor-memory 10G --executor-cores 4 --driver-memory 12G --driver-cores 8 --py-files