GCP数据流,Dataproc,Bigtable

时间:2019-02-21 13:04:12

标签: google-cloud-platform google-bigquery google-cloud-dataflow google-cloud-dataproc

我正在选择服务,以将JSON消息从Cloud Pub / Sub写入和转换为BigQuery,以在Google Cloud上建立数据管道。我想最小化服务成本。我还想监视和容纳输入数据量,这些输入量的大小会有所不同,而手动干预最少。我该怎么办?

A。使用Cloud Dataproc来运行您的转换。监视群集的CPU使用率。通过命令行调整集群中工作节点的数量。

B。使用Cloud Dataproc来运行您的转换。使用诊断命令生成可操作的输出档案。找到瓶颈并调整群集资源。

C。使用Cloud Dataflow来运行您的转换。使用Stackdriver监视作业系统滞后。为工作实例使用默认的自动缩放设置。

D。使用Cloud Dataflow来运行您的转换。监视总的执行时间以进行作业采样。将作业配置为在需要时使用非默认的Compute Engine计算机类型。

1 个答案:

答案 0 :(得分:1)

C!

在pubsub上使用Dataflow转换数据,并将其写入BQ。您可以直接从数据流监视ETL管道,并在顶部使用stackdriver。 Stackdriver也可以用于启动事件等。

使用自动缩放可最大程度地减少手动操作的次数。基本上,只要正确设置此解决方案,就根本不需要工作。