我们正在使用DataFlow从一组PubSub主题中读取数据并将数据写入BigQuery。我们目前正在为每个主题使用一个DataFlow作业,并将它们写入相关的BigQuery表。是否可以为此编写一个Dataflow作业?
我在这里看到有关一个输出的多个来源的文档:https://cloud.google.com/dataflow/pipelines/design-principles?hl=en#multiple-sources
有没有什么能阻止我在同一个DataFlow工作中执行多个“基本”管道,就像在基本流程中一样:https://cloud.google.com/dataflow/pipelines/design-principles?hl=en#a-basic-pipeline
文档和我对代码的理解意味着可以做到这一点,但在开始努力之前,我想确定一下。
答案 0 :(得分:1)
我的理解是,这样做并没有“错误”,而且可以做到,这取决于你想要实现的目标,以及与你相关的设计决策。例如,如果您希望某些主题具有更高的吞吐量,则拆分它们的一个可能的好处是它允许您独立扩展以处理特定主题。
就我而言,我正在处理多个主题,应用一些变换并创建PCollectionList
,最终将它们写入BigQuery。这一切都在一个作业中完成,我在运行之前以编程方式生成转换。