我试图理解Spark Streaming中[Country].[Country].[Country].&[italy]
的概念,无论重新分配是在驱动程序还是在工作程序上进行的。如果假设它发生在驱动程序上,则工作人员会在排序发生之前等待所有数据。
答案 0 :(得分:1)
与任何其他转换一样,它由执行程序处理。数据不通过驱动程序传递。换句话说,这个标准的shuffle机制并没有特定的流媒体特性。
每条记录的目的地定义如下:
Partitioner
用于给定的随机播放。,数据直接在执行程序节点之间传递。
从评论中看起来您对Spark Streaming架构更感兴趣。如果是这种情况,您应该查看Diving into Apache Spark Streaming’s Execution Model。为了给你一些概述,可以存在两种不同类型的流: