应用错误收集

为什么累加器转换只应用于调试？

时间：2016-08-29 19:36:08

标签： apache-spark rdd

我正在读到，当在转换中使用累加器时，无法保证任务的更新仅应用一次。因此，累加器的转换只能用于调试目的。

所以我不理解两件事：

1.如果Spark记得RDD上的转换谱系，并且RDD是不可变的，那么多次更新的问题是什么？不会有多个更新会产生相同的结果吗？

2.如果在累加器上使用转换进行生产是不安全的，为什么要用它们进行调试？如果在不同的执行中结果可能不同，它们如何对调试有用呢？

0 个答案:

没有答案