SparkContext参数用于集群上的pyspark应用程序

时间:2016-04-12 13:56:12

标签: pyspark slurm

我试图在群集上运行pyspark应用程序,但我不确定如何并行执行它。当我在本地运行应用程序时,我将SparkContext初始化为:

sc = SparkContext("local", "appname")

当我在群集上运行时,我将其更改为:

sc = SparkContext(os.sys['MASTER'], 'appname')

其中' MASTER'设置为群集上的主节点(即spark:// node-1:7077)。该应用程序开始运行,但它只是停止(当我将master设置为本地'时,它在群集上运行正常)。我的提交脚本具有以下设置:

#SBATCH -N 20
#SBATCH --ntasks-per-node 4
#SBATCH --cpus-per-task 2
...
spark-submit --total-executor-cores 160 --executor-memory 1024G app.py

非常感谢任何帮助。感谢

0 个答案:

没有答案