python - Google云端数据流：在GroupByKey之后写入BigQuery会导致滞后，但CoGroupByKey不会。为什么？ - Thinbug

Google云端数据流：在GroupByKey之后写入BigQuery会导致滞后，但CoGroupByKey不会。为什么？

时间：2018-08-09 19:14:38

标签： python google-cloud-platform google-bigquery google-cloud-dataflow apache-beam

我在运行Google Cloud Dataflow作业时发现了一个奇怪的情况。运行GroupByKey转换，然后使用WriteToBigQuery转换将组中的每个项目写入BigQuery之后，写入的上限大约为500-600条记录/秒：

然后我运行完全相同的作业，并使用CoGroupByKey而不是GroupByKey，写入速度达到50000-100000条记录/秒：

我不确定GroupByKey的基础实现是否会导致这种延迟/滞后，并且对为什么会发生这种情况感到好奇。有人遇到过这个问题吗？

我正在Python中使用Apache Beam V2.4.0。

1 个答案:

答案 0 :(得分：0)

CoGroupByKey将在具有相同键类型的两个PCollection之间执行关系连接。 GroupByKey将收集与集合中每个唯一键关联的所有值。