如何在结构化流中使用任意状态处理对流查询进行重复数据删除?

时间:2019-09-10 10:42:22

标签: apache-spark spark-structured-streaming

我正在使用Spark执行arbitrary stateful stream processing。用例涉及识别用户会话(基于特定的ID,例如 session_id ,因此1个会话的所有用户活动事件将具有相同的 session_id ),并跟踪会话(进行中或已完成)等。此外,我的用例涉及基于某些字段(不包含ID,因此确定重复的会话),因此重复的会话是不同的)。

现在,我正在使用Spark结构化流的flatMapGroupsWithState,并将 session_id 作为我的处理的分组键。 但是我无法弄清楚如何识别重复项和执行重复数据删除,因为它涉及的字段与用于标识会话的字段不同。我认为以后的尝试是有效的,并认为较旧的尝试是重复的。

0 个答案:

没有答案