标签: java apache-spark yarn
当前,我正在运行庞大的spark streaming application(正在对kafka进行读写),这使得分布式联接( updateStateByKey)成为可能。 Spark在YARN上运行,它有3个节点。问题是spark在同一主机上调度所有执行程序的原因。总共创建了30个执行程序,但所有执行程序都位于同一主机上。结果,负载分配不平衡。我如何避免这种情况并迫使spark分散所有主机上的执行器(例如,每台主机10个执行器)
spark streaming application
( updateStateByKey)
Spark
YARN
spark