标签: apache-spark rdd
我正在读到,当在转换中使用累加器时,无法保证任务的更新仅应用一次。 因此,累加器的转换只能用于调试目的。
所以我不理解两件事:
1.如果Spark记得RDD上的转换谱系,并且RDD是不可变的,那么多次更新的问题是什么? 不会有多个更新会产生相同的结果吗?
2.如果在累加器上使用转换进行生产是不安全的,为什么要用它们进行调试? 如果在不同的执行中结果可能不同,它们如何对调试有用呢?