如何使用stackdriver为dataproc集群创建空闲/正常运行时间度量标准

时间:2018-05-23 08:12:31

标签: google-cloud-platform monitoring google-cloud-dataproc stackdriver google-cloud-stackdriver

我想为我正在运行的所有数据集群创建一个空闲或正常运行时间指标,而且从我在stackdriver中看到的情况来看,我无法这样做。 我的方案是我有每天运行的定时数据空间作业,在作业完成后我删除了集群。 我想通过电子邮件创建一个警报,如果有空闲的数据集群在一小时内什么都不做,或者数据集群的正常运行时间超过24(甚至20)小时。

感谢。

1 个答案:

答案 0 :(得分:1)

您的问题中有3个项目我想分开处理:

  1. 关于空闲指标的警报:Dataproc没有公开这样的指标,我将提交功能请求,以便我们添加一个。与此同时,您可以通过检测此指标:dataproc.googleapis.com/cluster/yarn/containers何时降至0一小时左右来近似空闲。

  2. 关于群集闲置一小时或活着24小时。这可以通过Scheduled Deletion功能gcloud beta dataproc clusters create ... --max-age=24h --max-idle=1h

  3. 通过Dataproc实现自动化
  4. 关于日常工作。我想在这里你可以完全回避问题#1和#2,并利用Workflow Templates来管理集群创建,拆卸和作业执行。如果您的自动化是通过Api客户端进行的,或者您需要在每次调用时传递不同的参数InstantiateInline方法,那么就可以使用