如何使用数据流并行读取pubsub源

时间:2019-03-26 10:24:33

标签: google-cloud-dataflow google-cloud-pubsub

我对数据流非常陌生,我正在寻找建立使用pubsub作为源的管道。

我研究了以flink作为流传输引擎并且以kafka作为源的流管道,因为我们可以在flink中设置并行性以从kafka读取消息,以便消息处理可以并行发生,而不是顺序发生。

我想知道是否可以在pubsub-> dataflow中实现相同的功能,否则它只会按顺序读取消息。

1 个答案:

答案 0 :(得分:1)

看看PubSubToBigQuery管道。这使用PubSub作为源,它将并行读取数据。默认情况下,多个线程将各自从pubsub中读取一条消息并将其交给下游转换进行处理。

请注意,PubSubToBQ管道也可以是run as a template pipeline,对许多用户来说效果很好。只需从Template UI启动管道,然后设置适当的参数以指向您的pub sub和BQ位置。一些用户喜欢以这种方式使用它。但这取决于您要在何处存储数据。