应用错误收集

我正在使用Spark执行arbitrary stateful stream processing。用例涉及识别用户会话（基于特定的ID，例如 session_id ，因此1个会话的所有用户活动事件将具有相同的 session_id ），并跟踪会话（进行中或已完成）等。此外，我的用例涉及基于某些字段（不包含ID，因此确定重复的会话），因此重复的会话是不同的）。

现在，我正在使用Spark结构化流的flatMapGroupsWithState，并将 session_id 作为我的处理的分组键。但是我无法弄清楚如何识别重复项和执行重复数据删除，因为它涉及的字段与用于标识会话的字段不同。我认为以后的尝试是有效的，并认为较旧的尝试是重复的。

如何在结构化流中使用任意状态处理对流查询进行重复数据删除？

0 个答案: