处理状态和定时器

时间:2017-09-15 19:19:25

标签: google-cloud-dataflow apache-beam

使用Beam Dataflow runner(从v2.1.0开始)使用有状态处理和计时器是否有任何指导或限制?诸如国家规模或更新频率等限制的事情?候选流式传输管道将广泛使用状态和计时器用于用户会话状态,Bigtable作为持久存储。

1 个答案:

答案 0 :(得分:3)

以下是针对您的用例的一般建议

  • 请聚合多个元素,然后设置计时器。
  • 请不要为每个元素创建一个计时器,这会过多。
  • 尝试并聚合状态,而不是累积大量的状态。即汇总为总和和计数,而不是在尝试计算均值时存储每个数字。
  • 请针对此用例考虑session windows
  • 在数据流中,不支持合并窗口的状态。这是梁。
  • 请根据您的访问模式使用状态,即BagState进行盲写。

这是一篇内容丰富的博客文章,其中包含有关州“Stateful processing with Apache Beam”的更多信息。