Spark:按键进行有状态流处理

时间:2017-07-05 09:51:26

标签: apache-spark spark-streaming

我有数据流,例如带有ID的JSON记录。

我想处理数据,以便所有具有相同密钥的记录由同一个有状态工作者处理。

我该怎么做?

1 个答案:

答案 0 :(得分:0)

您可以编写自定义分区,它将根据Json id的散列分发数据,同样的Id json将转到同一分区并将被处理,每个分区将由同一个执行程序线程处理