数据流流 - 它是否适合我们的用例?

时间:2015-06-04 04:44:55

标签: google-cloud-dataflow

我们已经在批处理模式下使用Dataflow一段时间了。但是,我们似乎无法找到有关其流媒体模式的更多信息。

我们有以下用例:

  • 数据/事件正在实时流式传输到BigQuery
  • 我们需要在分析之前对数据进行转换/清理/非规范化 业务

现在,我们当然可以在批处理模式下使用Dataflow,并从BigQuery中获取数据(基于时间戳),并以这种方式转换/清理/非规范化。

但这有点混乱,特别是因为数据是实时流式传输的,并且可能会真正弄清楚哪些数据需要处理。听起来也很脆弱。

如果我们可以简单地在Dataflow中进行转换/清理/非规范化,然后在>中写入BigQuery ,那就太棒了。

这是Dataflow流媒体的目的吗?如果是这样,Dataflow可以在流模式下读取哪些数据源?

1 个答案:

答案 0 :(得分:3)

是的,这是流模式的一个非常合理的用例。目前,我们支持通过PubsubIO来源从Cloud Pub/Sub进行阅读。其他来源正在开发中。输出可以通过BigQueryIO接收器写入BigQueryPCollection docs涵盖了有界和无界源/汇之间的区别,以及当前可用的具体实现。

对于任何明显缺乏特定于流的文档,大多数统一模型适用于批处理和流式传输,因此没有特定于流的部分。也就是说,我建议查看PCollection文档的WindowingTriggers部分,因为这些部分在处理无界PCollection时特别适用。