数据流消耗不断读取新数据

时间:2017-10-31 03:16:58

标签: google-cloud-platform google-cloud-dataflow

我有一个数据流工作,我正在尝试“排空”#。排水选项说明

  

Dataflow将停止所有数据摄取,但会尝试完成处理任何剩余的缓冲数据。管道资源将保持不变,直到缓冲数据处理完毕并且任何待处理的输出已完成写入。

但数据摄取似乎并未停止。 Elements added计数仍在增加,现在工作已经停止了一个多小时。这是预期的行为吗?如果有帮助,我正在使用Pub / Sub源。

编辑: 这是职位ID - 2017-10-30_19_59_30-14251132252018661885

1 个答案:

答案 0 :(得分:1)

如@jkff的评论所述,失败的工作无法消耗殆尽。处理失败的数据流作业的正确方法是使用--update选项修复代码并更新作业。这可以防止任何数据丢失。