我正在考虑将数据流与持久性MapState一起使用
从https://beam.apache.org/blog/2017/02/13/stateful-processing.html说:
您可以深入研究特定跑步者如何管理状态
但是我无法找到针对Dataflow进行讨论的文档。
我确实找到了Processing with State and Timers 提示
不收集大量状态
如果我错过了相关文档;乐于指出他们的方向。
1。)数据流如何存储持久状态? 是否将其保存在Bigtable中?在磁盘上的某个地方?还有别的吗?他们是否可以选择一种适合于特定工作负荷的方法?
2。)在这种情况下,是否可以在large
周围加上任何数字?
如果我的信息流分为500个不同的文档;每个文档的“持久性映射”中最多可以有10万个键;这是一个潜在的好或坏用例吗?
谢谢