我遇到了火花群中数据分布的问题,因为我需要一起处理的许多对象具有相同的密钥。因此,许多任务很快就会结束,但其中一个任务会继续运行,直到执行程序的内存边界和集群应用程序出错并停止。该图像显示了历史服务器内部发生的情况。
答案 0 :(得分:2)
这是分布式计算面临的最大挑战之一:分配每项任务的有效负载,以便获得最佳性能。
换句话说,您需要将每个任务的工作负载平衡为w.r.t.其他任务。
您需要重新设置问题并以其他方式解决问题(按建议查找“辅助”键),或尝试执行仅适用于大任务的作业(即分配任务本身)。 / p>