Python作业提交从远程激发

时间:2018-04-23 17:37:17

标签: apache-spark pyspark

我的本​​地系统上有一个带有pyspark代码的python脚本。我正在尝试从本地计算机向远程spark集群提交pyspark作业。

请告诉我怎么做。 我是否需要在当地安装火花来提交火花工作。

1 个答案:

答案 0 :(得分:0)

您需要在spark conf中设置spark主URL,如下所示

SparkSession spark = SparkSession.builder().appName("CDX JSON Merge Job").master("spark://ip-address:7077")
                .getOrCreate();

您必须在localhost中安装spark客户端,然后使用spark-submit

执行jar
spark-submit --num-executors 50 --executor-memory 4G --executor-cores 4 --master spark://ip-address:7077 --deploy-mode client --class fully-qualified-class-name  artifact.jar

如果您在YARN上运行Spark并将deploy-mode作为集群运行,您也可以将主服务器设为YARN。