为什么Dataflow-BigTable连接器不支持增量?

时间:2017-05-08 18:34:19

标签: google-cloud-dataflow google-cloud-bigtable apache-beam apache-beam-io

我们在Streaming模式下有一个用例,我们想要从管道(#items完成处理)跟踪BigTable上的计数器,我们需要增量操作。通过查看https://cloud.google.com/bigtable/docs/dataflow-hbase,我发现此客户端不支持HBase API的追加/增量操作。陈述的原因是批处理模式的重试逻辑,但如果Dataflow保证完全一次,为什么支持它是一个坏主意,因为我知道增量只被调用一次?我想了解我缺少的部分。

此外,CloudBigTableIO是否可用于流媒体模式,还是只与批处理模式相关联?我想我们可以直接在管道中使用BigTable HBase客户端,但是连接器似乎具有很好的属性,比如我们想要利用的连接池,因此问题。

2 个答案:

答案 0 :(得分:2)

Dataflow(和其他系统)在出现故障和重试时提供完全一次执行的外观的方式是要求副作用(例如变异BigTable)是幂等的。 “写”是幂等的,因为它在重试时被覆盖。通过包含对插入进行重复数据删除的确定性“插入ID”,插入可以是幂等的。

对于增量,情况并非如此。它不受支持,因为它在重试时不会是幂等的,因此它不会支持完全一次执行。

答案 1 :(得分:1)

CloudBigTableIO可用于流模式。我们必须实现DoFn而不是Sink才能通过Dataflow SDK支持它。