我试图在群集上运行pyspark应用程序,但我不确定如何并行执行它。当我在本地运行应用程序时,我将SparkContext初始化为:
sc = SparkContext("local", "appname")
当我在群集上运行时,我将其更改为:
sc = SparkContext(os.sys['MASTER'], 'appname')
其中' MASTER'设置为群集上的主节点(即spark:// node-1:7077)。该应用程序开始运行,但它只是停止(当我将master设置为本地'时,它在群集上运行正常)。我的提交脚本具有以下设置:
#SBATCH -N 20
#SBATCH --ntasks-per-node 4
#SBATCH --cpus-per-task 2
...
spark-submit --total-executor-cores 160 --executor-memory 1024G app.py
非常感谢任何帮助。感谢