跨分区同步的Spark流状态

时间:2018-08-11 17:25:49

标签: spark-streaming

mapWithState更新接收到的每个密钥的状态。当执行程序并行运行时,这将如何工作?密钥是否只有一个状态,或者Dstream rdd中的每个分区都有一个状态?

1 个答案:

答案 0 :(得分:0)

在updatkeByKey之前,spark使用哈希分区对记录进行混洗,因此记录始终以同一分区结尾。