我正在处理批处理问题。解决方案需要处理失败的硬件。
主节点(启动任务执行)和执行作业的工作节点。我知道工作节点的故障转移是如何工作的,但我找不到有关主节点故障转移的任何信息。每当启动任务的主节点失败时,整个任务都会被取消。
有没有办法完成任务处理呢?
您能否建议实现主节点故障转移的最佳方法?
亲切的问候, 库巴
答案 0 :(得分:2)
每当主节点死亡时,基本上没有人执行MapReduce任务的“减少”步骤。
有几种方法可以尝试缓解此问题:
使用GridCheckpointSpi(GridTaskSession.saveCheckpoint(..)API)保存中间检查点,然后在节点崩溃后重新启动任务时,可以检查是否保存了检查点并从中启动。
< / LI>与(1)中的相同,但改为使用数据网格(GridCache API)。
如果您不关心“减少”,请让您的作业忽略“取消”呼叫,并让它们在完成后将结果保存在数据网格中。
- 最佳