数据流:有状态处理性能注意事项

时间:2019-01-21 16:58:27

标签: google-cloud-platform google-cloud-dataflow apache-beam

我正在考虑将数据流与持久性MapState一起使用

https://beam.apache.org/blog/2017/02/13/stateful-processing.html说:

  

您可以深入研究特定跑步者如何管理状态

但是我无法找到针对Dataflow进行讨论的文档。

我确实找到了Processing with State and Timers 提示

  

不收集大量状态

如果我错过了相关文档;乐于指出他们的方向。

1。)数据流如何存储持久状态? 是否将其保存在Bigtable中?在磁盘上的某个地方?还有别的吗?他们是否可以选择一种适合于特定工作负荷的方法?

2。)在这种情况下,是否可以在large周围加上任何数字? 如果我的信息流分为500个不同的文档;每个文档的“持久性映射”中最多可以有10万个键;这是一个潜在的好或坏用例吗?

谢谢

0 个答案:

没有答案