应用错误收集

数据源的瓶颈

时间：2017-08-24 20:59:53

标签： google-bigquery google-cloud-dataflow apache-beam

我们使用BigQuery的DataFlow作业（批处理）处理数据。源的大小约为60M行，总大小为300GB。它每天线性增长2M。

我们有时间戳，但是我们会在时间上汇总记录，在处理过程中不使用时间戳。现在阅读需要10个多小时。

这项工作的瓶颈似乎是阅读和转移所有这些数据。处理过程中发生的一切都是在多台机器之间进行缩放的，这在规模上是可以的。

我知道可以处理太字节或数PB的数据，如何在阅读步骤中完成？

0 个答案:

没有答案