Question

弹性分布式数据集（RDD）设计为不可变的。使它们不可变的原因之一在于容错和避免，因为它们同时由许多进程和可能的许多节点处理。这可以避免争用条件，也可以避免尝试控制那些条件所涉及的开销。

关于实现RDD的方式，有一些说明（例如this one）。但是，我似乎找不到一个能说明如何实现Accumulator的示例。它是在Apache Spark文档的RDD部分下。这是否意味着为该值的每个增量都创建一个新的RDD，还是完全不同的数据结构？

Answer 1

Accumulator是执行程序的只读变量。执行程序可以将它们添加到驱动程序中，并且只能由驱动程序读取。

executors and read by the driver only.
executor1: accumulator.add(incByExecutor1)
executor2: accumulator.add(incByExecutor2)

driver:  println(accumulator.value)

Accumulators不是线程安全的。它们并不是必须的，因为仅在运行调度循环的单个线程上执行任务（成功或失败）后驱动程序用于更新累加器值的DAGScheduler.updateAccumulators方法。除此之外，它们是具有自己的本地累加器引用的工作程序的仅写数据结构，而驱动程序仅允许访问累加器的值。
累加器是可序列化的，因此可以安全地在执行器中执行的代码中引用它们，然后安全地通过网络发送执行该程序。

val counter = sc.longAccumulator("counter")
sc.parallelize(1 to 9).foreach(x => counter.add(x))

在Spark中，RDD是不可变的，那么如何实现累加器？

1 个答案: