数据源的瓶颈

时间:2017-08-24 20:59:53

标签: google-bigquery google-cloud-dataflow apache-beam

我们使用BigQuery的DataFlow作业(批处理)处理数据。源的大小约为60M行,总大小为300GB。它每天线性增长2M。

我们有时间戳,但是我们会在时间上汇总记录,在处理过程中不使用时间戳。现在阅读需要10个多小时。

这项工作的瓶颈似乎是阅读和转移所有这些数据。处理过程中发生的一切都是在多台机器之间进行缩放的,这在规模上是可以的。

我知道可以处理太字节或数PB的数据,如何在阅读步骤中完成?

0 个答案:

没有答案