我在运行Google Cloud Dataflow作业时发现了一个奇怪的情况。运行GroupByKey转换,然后使用WriteToBigQuery转换将组中的每个项目写入BigQuery之后,写入的上限大约为500-600条记录/秒:
然后我运行完全相同的作业,并使用CoGroupByKey而不是GroupByKey,写入速度达到50000-100000条记录/秒:
我不确定GroupByKey的基础实现是否会导致这种延迟/滞后,并且对为什么会发生这种情况感到好奇。有人遇到过这个问题吗?
我正在Python中使用Apache Beam V2.4.0。