Google云端数据流:在GroupByKey之后写入BigQuery会导致滞后,但CoGroupByKey不会。为什么?

时间:2018-08-09 19:14:38

标签: python google-cloud-platform google-bigquery google-cloud-dataflow apache-beam

我在运行Google Cloud Dataflow作业时发现了一个奇怪的情况。运行GroupByKey转换,然后使用WriteToBigQuery转换将组中的每个项目写入BigQuery之后,写入的上限大约为500-600条记录/秒:

enter image description here

然后我运行完全相同的作业,并使用CoGroupByKey而不是GroupByKey,写入速度达到50000-100000条记录/秒:

enter image description here

我不确定GroupByKey的基础实现是否会导致这种延迟/滞后,并且对为什么会发生这种情况感到好奇。有人遇到过这个问题吗?

我正在Python中使用Apache Beam V2.4.0。

1 个答案:

答案 0 :(得分:0)

CoGroupByKey将在具有相同键类型的两个PCollection之间执行关系连接。 GroupByKey将收集与集合中每个唯一键关联的所有值。