Cloud Dataflow批处理需要花费数小时才能在公共密钥上连接两个PCollections

时间:2017-08-29 17:09:29

标签: google-cloud-dataflow

我正在运行Dataflow批处理作业以在公共密钥上连接两个PCollections。两个PCollections每个都有数百万行:一行是8行,另一行是2行。我的工作将花费4个多小时完成!所以我已经检查了相关主题的SO帖子如下:

但是没有找到关于如何在Dataflow中处理这种大型连接的任何内容。我有以下问题:

  1. Dataflow是否能够在大型数据集的公共密钥上连接两个PCollections(每个数百万行)?
  2. BQ会更适合这种加入吗?
  3. 使用GCP大数据堆处理这种用例有哪些可能的解决方案?
  4. 提前致谢!

    编辑:提及Dataflow,GroupByKey和CoGroupByKey

0 个答案:

没有答案