我的本地系统上有一个带有pyspark代码的python脚本。我正在尝试从本地计算机向远程spark集群提交pyspark作业。
请告诉我怎么做。 我是否需要在当地安装火花来提交火花工作。
答案 0 :(得分:0)
您需要在spark conf中设置spark主URL,如下所示
SparkSession spark = SparkSession.builder().appName("CDX JSON Merge Job").master("spark://ip-address:7077")
.getOrCreate();
您必须在localhost中安装spark客户端,然后使用spark-submit
spark-submit --num-executors 50 --executor-memory 4G --executor-cores 4 --master spark://ip-address:7077 --deploy-mode client --class fully-qualified-class-name artifact.jar
如果您在YARN上运行Spark并将deploy-mode作为集群运行,您也可以将主服务器设为YARN。