apache-spark - 如何处理Spark中分布的偏差 - Thinbug

如何处理Spark中分布的偏差

时间：2017-11-24 10:33:24

标签： apache-spark cluster-computing load-balancing distributed-computing

我遇到了火花群中数据分布的问题，因为我需要一起处理的许多对象具有相同的密钥。因此，许多任务很快就会结束，但其中一个任务会继续运行，直到执行程序的内存边界和集群应用程序出错并停止。该图像显示了历史服务器内部发生的情况。

1 个答案:

答案 0 :(得分：2)

这是分布式计算面临的最大挑战之一：分配每项任务的有效负载，以便获得最佳性能。

换句话说，您需要将每个任务的工作负载平衡为w.r.t.其他任务。

您需要重新设置问题并以其他方式解决问题（按建议查找“辅助”键），或尝试执行仅适用于大任务的作业（即分配任务本身）。 / p>