标签: apache-spark spark-streaming
我有数据流,例如带有ID的JSON记录。
我想处理数据,以便所有具有相同密钥的记录由同一个有状态工作者处理。
我该怎么做?
答案 0 :(得分:0)
您可以编写自定义分区,它将根据Json id的散列分发数据,同样的Id json将转到同一分区并将被处理,每个分区将由同一个执行程序线程处理