Apache Spark的非确定性来源

时间:2015-12-09 20:57:42

标签: apache-spark non-deterministic

我试图找出Spark中所有非确定性的来源。我知道非确定性可以来自用户提供的功能,例如在地图(f)中,f涉及随机。相反,我正在寻找可能导致非确定性的操作,无论是在较低级别的转换/动作方面,例如改组。

1 个答案:

答案 0 :(得分:1)

脱离我的头顶:

  • 需要改组(或一般网络流量)的操作可能以非确定性顺序输出值。它包含明显的案例,例如groupBy*join。一个不太明显的例子是排序后的关系顺序

  • 依赖于不断变化的数据源或可变的全局状态的操作

  • 在转化中执行的副作用,包括accumulator更新