我想知道是否有办法挂钩Dataproc中提交的作业的一些通知。我们计划使用Dataproc全天候运行流媒体应用程序。但Dataproc似乎没有办法通知失败的工作。
只是想知道Google StackDriver是否可以通过任何方式使用。
由于 苏伦
答案 0 :(得分:1)
当然,StackDriver可用于在定义的日志指标上设置警报策略。 例如,您可以设置度量标准缺失策略,该策略将监视成功完成的作业,并在规定的时间段内丢失时发出警报。
转到控制台中的Logging并设置过滤器:
resource.type="cloud_dataproc_cluster"
jsonPayload.message:"completed with exit code 0"
点击创建指标,在填写详细信息后,您将被重定向到日志指标页面,您可以在该页面中根据指标创建警报
答案 1 :(得分:0)
如上面答案中所述,基于日志的指标可以强制提供OP所需的功能。但是,metric absence
对于长时间运行的作业意味着您将不得不等待比最长的作业运行时间更长的猜测时间(并且如果作业花费更长的时间但没有失败,您仍然会收到警报) 。 “我们”真正想要的是一种监视和警告作业状态failed
的方法,或者指示失败的服务完成消息(例如您的示例),以便我们立即发出警报。是的,您可以定义一个基于Stackdriver log的度量标准,查找表示失败的特定字符串或值,并且此“有效”,但是度量标准是被计数的度量标准,例如“有多少个作业失败”,并且需要不便的解决方法来转换从指标警报变成简单的“此作业失败”警报。例如,要使此工作有效,警报就按指标进行过滤,还需要指定一个间隔内的平均聚合器来触发警报。讨厌:(