用于处理多个Pubsub主题的数据流管道设计

时间:2015-09-18 18:46:35

标签: google-cloud-platform google-cloud-dataflow

我有一个从Pubsub主题读取的管道(按分钟窗口化)并将处理结果写入BigQuery。我想让表格按时间分片,以及数据本身的一些键。 BigQueryIO确实通过窗口时间戳为shard提供了选项,但我认为它不提供任何选项来通过输入集合本身的某些键对表进行分片。如果我错过了一些替代方案,请告诉我。

为了解决这个问题,(选项1)我选择使用相同的密钥对源Pubsub主题本身进行分片,因此,设置管道以从多个源读取并按照单独的分支处理它们并将每个分支结果写入BigQuery分区通过窗口时间戳似乎工作。我想知道的是,由于Dataflow中的中间处理步骤在我的情况下可以与源或接收器无关(选项2)如果我继续使用它会使管道更有效(在资源和时间方面)单个Pubsub主题并在BigQuery编写步骤之前添加额外的转换以对集合进行分区,然后写入BigQuery。

选项 - 1 +在读取/写入期间在Pubsub上发生较小的负载,因为即使组合的消息也可能适合几百KB - 阅读步骤&中间处理在单独的管道中完成(对于Dataflow可能效率不高)

选项 - 2 +管道更清洁 - 分区的附加步骤,它也读取与我们所拥有的分区数一样多的相同集合 - 但是集合项和分区本身的数量非常小 - 所以,这不应该是一个更大的问题

我认为选项2在阅读Pipeline Design Principles时更有意义,但我仍想澄清我正在做的事情是对的。

0 个答案:

没有答案