标签: google-bigquery google-cloud-dataflow apache-beam
我们使用BigQuery的DataFlow作业(批处理)处理数据。源的大小约为60M行,总大小为300GB。它每天线性增长2M。
我们有时间戳,但是我们会在时间上汇总记录,在处理过程中不使用时间戳。现在阅读需要10个多小时。
这项工作的瓶颈似乎是阅读和转移所有这些数据。处理过程中发生的一切都是在多台机器之间进行缩放的,这在规模上是可以的。
我知道可以处理太字节或数PB的数据,如何在阅读步骤中完成?