Question

我正在尝试使用Prometheus警报监视flink作业的可用性。

我尝试使用flink_jobmanager_job_uptime / downtime指标，但它们似乎不适合，因为在工作失败/完成后才停止执行。我已经指出了numRunningJobs指标是为了提醒丢失的作业。我不想使用此解决方案，因为每次我要部署新作业时都必须更新我的prometheus配置。

是否有人使用Prometheus创建了Flink失败作业的警报？

Answer 1

Prometheus具有一个absent()函数，如果该度量标准不存在，该函数将返回1。因此，您只需将警报表达式设置为类似

absent(flink_jobmanager_job_uptime) == 1