我的火花累加器会看到执行人写的所有记录吗?

时间:2018-11-29 16:13:09

标签: scala apache-spark yarn

在以下代码中,是否保证BLOCK 2循环仅在由BLOCK 1产生的所有执行程序任务完成后才执行,或者在某些执行程序任务执行时可能运行还在运行?

如果两个块有可能同时运行,防止这种情况的最佳方法是什么?我需要处理累加器的内容,但仅在所有执行器完成后才处理。

如图所示使用主URL local[4]运行时,看起来BLOCK 2等待BLOCK 1完成,但是在运行{{1 }},表明yarnBLOCK 2中的执行程序任务同时运行

BLOCK 1

0 个答案:

没有答案