标签: google-cloud-dataflow
我正在运行Dataflow批处理作业以在公共密钥上连接两个PCollections。两个PCollections每个都有数百万行:一行是8行,另一行是2行。我的工作将花费4个多小时完成!所以我已经检查了相关主题的SO帖子如下:
但是没有找到关于如何在Dataflow中处理这种大型连接的任何内容。我有以下问题:
提前致谢!
编辑:提及Dataflow,GroupByKey和CoGroupByKey