我正在尝试使用Prometheus警报监视flink作业的可用性。
我尝试使用flink_jobmanager_job_uptime / downtime指标,但它们似乎不适合,因为在工作失败/完成后才停止执行。 我已经指出了numRunningJobs指标是为了提醒丢失的作业。我不想使用此解决方案,因为每次我要部署新作业时都必须更新我的prometheus配置。
是否有人使用Prometheus创建了Flink失败作业的警报?
答案 0 :(得分:0)
Prometheus具有一个absent()函数,如果该度量标准不存在,该函数将返回1。因此,您只需将警报表达式设置为类似
absent(flink_jobmanager_job_uptime) == 1