我有一个运行pyspark的Spark作业。我可以传入一个脚本,它将使用任何其他参数(例如executor-memory,driver-cores)spark-submit spark-test1.py --executor-memory 10G --executor-cores 4 --driver-memory 12G --driver-cores 8
来执行。
注意-在下面的示例中,我将使用熊猫,但它不仅限于熊猫。可以是任意任意的程序包,也可以是需要传递到每个节点的程序包数量。
当我在脚本import pandas as pd
中包含命令时,作业将失败。 ImportError: No module named panda
。
现在,我可以在安装了熊猫的conda环境中传递某种--
参数,还是可以将路径添加到panadas软件包中?
谢谢
答案 0 :(得分:0)
您可以使用--py-files命令传递egg文件。因此,您的命令看起来像- spark-submit spark-test1.py --executor-memory 10G --executor-cores 4 --driver-memory 12G --driver-cores 8 --py-files