在集群管理的几个演示文稿中(例如,1,2,3),调度程序的目标之一是通过分配任务来减少协调故障跨计算节点的单个作业不太可能一起失败。
为什么单个作业中的任务相关故障不合需要?如果我理解正确,所有任务都需要在工作完成之前完成。所以乍一看,如果任务失败仅限于少量工作,那就更好了,因此只有那些工作因重新提交失败的任务而经历延迟。
我会理解,如果作业中的所有任务都只是复制相同的工作,但每个作业有数百个任务可能不是这样(可能有3-4个相同的任务用于容错目的,而且我确实理解为什么减少这些任务组的相关故障非常重要。)
答案 0 :(得分:0)
我弄明白我错过了什么。我不知何故想到了一项工作,它将工作静态分配到预先确定的任务集中。
实际上,在群集管理的上下文中,工作在动态之间分配。因此,任务就像工人一样:他们会宣布他们对负载均衡器的可用性,然后动态分配一些工作部分。
有了这个澄清,一切都很明显。
如果任务失败,负载均衡器将简单地将相应的工作重新分配给其他任务,但作业性能指标略有下降(批处理作业时的完成时间;服务作业时的延迟) 。但是,如果单个作业中的任务太多失败,则作业性能会受到太大影响。这正是相关故障不合需要的原因。