repartitionAndSortWithinPartitions中的重新分区发生在驱动程序或工作者身上

时间:2016-09-19 14:39:35

标签: apache-spark apache-spark-sql spark-streaming datastax partitioning

我试图理解Spark Streaming中[Country].[Country].[Country].&[italy]的概念,无论重新分配是在驱动程序还是在工作程序上进行的。如果假设它发生在驱动程序上,则工作人员会在排序发生之前等待所有数据。

1 个答案:

答案 0 :(得分:1)

与任何其他转换一样,它由执行程序处理。数据不通过驱动程序传递。换句话说,这个标准的shuffle机制并没有特定的流媒体特性。

每条记录的目的地定义如下:

  • 它的关键。
  • Partitioner用于给定的随机播放。
  • 分区数。

,数据直接在执行程序节点之间传递。

从评论中看起来您对Spark Streaming架构更感兴趣。如果是这种情况,您应该查看Diving into Apache Spark Streaming’s Execution Model。为了给你一些概述,可以存在两种不同类型的流:

  • 基于接收器的每个流的接收器节点。
  • 直接(没有接收者),其中只将元数据分配给执行者,但直接获取数据。