数据流进程在失败时未恢复

时间:2016-07-07 06:46:58

标签: google-cloud-dataflow apache-beam

在最近发生的事件导致整个AZ丢失到中断之后,我想更好地了解Dataflow故障转移程序。

当我手动删除数据流作业(Streaming,PubSub到BigQuery)的工作节点时,它们已成功重新创建/重新启动,但Dataflow进程本身尚未恢复。

即使所有状态都正常,数据项也没有流动。

重启流程的唯一方法是取消作业并重新提交。

即使我知道手动删除不是有效的测试,我们也不能忽视人为错误的因素。

我的理解是工作流程应该已经自动重启,但这不是观察到的情况。

我想念什么?

1 个答案:

答案 0 :(得分:2)

Dataflow确实依赖GCE来恢复物理故障,因此我们不支持从手动删除节点进行恢复。显式删除不会模拟GCE中断,因此不会测试您感兴趣的弹性属性。