Prolinkeus警告flink作业失败?

时间:2019-12-19 16:26:53

标签: apache-flink prometheus

我正在尝试使用Prometheus警报监视flink作业的可用性。

我尝试使用flink_jobmanager_job_uptime / downtime指标,但它们似乎不适合,因为在工作失败/完成后才停止执行。 我已经指出了numRunningJobs指标是为了提醒丢失的作业。我不想使用此解决方案,因为每次我要部署新作业时都必须更新我的prometheus配置。

是否有人使用Prometheus创建了Flink失败作业的警报?

1 个答案:

答案 0 :(得分:0)

Prometheus具有一个absent()函数,如果该度量标准不存在,该函数将返回1。因此,您只需将警报表达式设置为类似

absent(flink_jobmanager_job_uptime) == 1