应用错误收集

当前，我正在运行庞大的spark streaming application（正在对kafka进行读写），这使得分布式联接( updateStateByKey)成为可能。 Spark在YARN上运行，它有3个节点。问题是spark在同一主机上调度所有执行程序的原因。总共创建了30个执行程序，但所有执行程序都位于同一主机上。结果，负载分配不平衡。我如何避免这种情况并迫使spark分散所有主机上的执行器（例如，每台主机10个执行器）

Spark无法平均分配执行者

0 个答案: