应用错误收集

在Spark中，广泛的依赖和随机播放是否总是同时发生？

时间：2017-05-03 00:02:53

标签： apache-spark dependencies shuffle

我正在阅读一本火花书，很难理解下面的一句话。对我来说，我无法想象一个广泛依赖的案例，但我们不需要洗牌。谁能举个例子呢？

＆＃34;在某些情况下，例如，当Spark已经知道数据以某种方式进行分区时，具有广泛依赖性的操作不会导致混乱。＆＃34; - ＆＃34;高性能火花＆＃34;作者：Holden Karau

1 个答案:

答案 0 :(得分：3)

RDD依赖性实际上是根据分区以及如何创建分区。

注意：以下定义是为了便于理解：

如果RDD的每个分区仅从单个RDD的一个分区创建，则它是窄依赖。

另一方面，如果RDD中的分区是从多个分区（来自相同或不同的RDD）创建的，则它是广泛依赖。

只要创建分区所需的数据不在一个地方，就需要随机操作（这意味着必须从不同的位置/分区获取）。

如果数据已经分组在一个或多个分区中（使用groupBy，partitionBy等操作），则只需从每个分区中取出相应的项目并合并它们即可。在这种情况下，不需要随机播放。

有关详细信息，请参阅this，尤其是可视化示例图片。

相关问题

SOAP属性是否始终以相同的顺序出现？

randperm或同时洗牌两个数据集

shuffle：同时只显示一行

上下文切换和交换同时发生？

同时使用继承和依赖注入

为什么GC事件每次都发生在应用程序的同一个地方？

同时安装Composer依赖项

在Spark中，广泛的依赖和随机播放是否总是同时发生？

Spark同时执行两个动作

PlaybackNearlyFinished和PlaybackFinished几乎同时发生？

最新问题

我写了这段代码，但我无法理解我的错误

我无法从一个代码实例的列表中删除 None 值，但我可以在另一个实例中。为什么它适用于一个细分市场而不适用于另一个细分市场？

是否有可能使 loadstring 不可能等于打印？卢阿

java中的random.expovariate()

Appscript 通过会议在 Google 日历中发送电子邮件和创建活动

为什么我的 Onclick 箭头功能在 React 中不起作用？

在此代码中是否有使用“this”的替代方法？

在 SQL Server 和 PostgreSQL 上查询，我如何从第一个表获得第二个表的可视化

每千个数字得到

更新了城市边界 KML 文件的来源？