Apache Beam Python SDK使用事件正文手动设置水印

时间:2020-08-03 15:53:35

标签: apache-beam apache-beam-internals

用例:从pubsub主题创建无限制的Pcollection

水印将成为邮件正文中的“完美水印”

pubsub队列的来源将决定水印

Message {
   event_time timestamp
   watermark timestamp
   ...other
}

我想找到利用此水印的最佳方法

在阅读了Slava的注释之后,看来pubsub io的水印是在连接器代码中定义的,我对它还不是很熟悉,但是我不认为应该为我的用例进行更改

所以我发现使用Splittable DoFns可能是实现此目的的正确工具

当前解决方案

  1. 从pubsub阅读
  2. 使用DoFn解析消息
  3. 使用ManualWatermarkEstimator在步骤2的DoFn中设置水印

这是正确的方法吗?

0 个答案:

没有答案
相关问题