我们有一个Spark作业,该作业每10分钟间隔运行一次(平均需要5分钟才能完成该作业)。在这个作业中,我们主要是在进行完全外部联接并缓存数据。作业可以顺利运行几个小时,并且在一个阶段(如下所述)卡住并永远保持活动状态。 卡住的阶段正在执行一些操作,我们可以看到此阶段出现了内存开销问题,因此它执行了几次重试。但是,在重试1或2次后,它会卡住/挂住,并且没有任何进展。
我正试图弄清为什么即使失败也会卡住工作。 我期望作业应该重试失败的任务并继续前进,或者以失败状态退出。但是,作业卡住了,没有任务处于运行状态,只有一个阶段处于活动阶段。