如何控制有界源分裂?

时间:2017-02-10 00:40:14

标签: java google-cloud-dataflow gcloud

我有一个数据流,其中输入是从数据库中读取的大量数据。我想分开这个查询,并在作业开始时从多个主机执行它。据我所知,BoundedSource无法直接控制输入分割。它最接近的是splitIntoBundles,这基本上意味着我必须开始一个非常昂贵的读取并希望Dataflow取消它并使用我定义的bundle split。这看起来很疯狂,所以我希望有一种更好的方法来预定义可以在任何远程工作者上运行的输入分割。

1 个答案:

答案 0 :(得分:1)

经过大量研究,无法控制单个阅读器的分裂并行性。我的解决方案是创建多个阅读器,让每个阅读器读入自己的PCollection,然后将多个PCollections展平为一个PCollection。