在最近发生的事件导致整个AZ丢失到中断之后,我想更好地了解Dataflow故障转移程序。
当我手动删除数据流作业(Streaming,PubSub到BigQuery)的工作节点时,它们已成功重新创建/重新启动,但Dataflow进程本身尚未恢复。
即使所有状态都正常,数据项也没有流动。
重启流程的唯一方法是取消作业并重新提交。
即使我知道手动删除不是有效的测试,我们也不能忽视人为错误的因素。
我的理解是工作流程应该已经自动重启,但这不是观察到的情况。
我想念什么?
答案 0 :(得分:2)
Dataflow确实依赖GCE来恢复物理故障,因此我们不支持从手动删除节点进行恢复。显式删除不会模拟GCE中断,因此不会测试您感兴趣的弹性属性。