假设我有一系列问题更新和用户更新。流包括每种类型实体的“创建”消息。问题通过questioner_id与用户相关。
典型的问题更新看起来像{qid:3 type:“Create”,questioner_id:5},{qid:3 type:“Comment”}。
典型的用户更新看起来像{uid:5 type:“Update”state:“CA”},{uid:5 type:“Update”state:“TX”}
我想要一个类似{ts:x qid:3条评论:1 user_state:“TX”}的最终question_facts数据集,其中包含每个问题更新的条目以及在发生“创建”事件后发生的用户更新
这样做的方法是有两个PCollections,一个窗口,然后是CoGroupByKey吗?
答案 0 :(得分:4)
如果您的管道输入是固定数据集,那么您建议的方法将起作用。
如果您有更新流并且想要输出结果流,那么您需要确切了解输出的确切时间。例如,您可以通过在输入窗口上设置AfterPane.elementCountAtLeast(1)的触发器来每次更新时输出。