Spark-Streaming记录比较

时间:2018-05-09 11:36:21

标签: apache-spark spark-streaming spark-structured-streaming

如何将收到的记录与火花结构流中相同键的先前记录进行比较。可以使用groupByKey和mapGroupWithState来完成吗?

groupByKey(user)
mapGroupsWithState(GroupStateTimeout.NoTimeout)(updateAcrossEvents)

// Spark Definitive Guide

中的示例代码

当我们执行上述操作时,还会出现一个问题 我不认为这样的记录序列将被保持,因为它将接收记录,它将在工作节点之间进行分区和存储,当我们应用groupByKey shuffle发生时,所有具有相同键的记录将在同一个工作节点中,但不会#39; t维持序列。

0 个答案:

没有答案