Flink Prometheus Push Gateway Reporter-删除作业关机指标

时间:2019-01-29 11:55:11

标签: hadoop yarn apache-flink prometheus

我已经按照文档指标部分中的说明设置了PrometheusPushGatewayReporter

我可以在推网关的UI中看到来自flink jobmanager和taskmanager的度量,以及Prometheus Cluster正确抓取的度量。

问题是,即使我已显式设置deleteOnJobShutdown config选项,通过flink cli工具取消作业时,也仅删除作业经理的指标。

有没有办法删除过时的Taskmanager指标?我的配置如下:

metrics.reporter.promgateway.class: org.apache.flink.metrics.prometheus.PrometheusPushGatewayReporter
metrics.reporter.promgateway.host: $PUSH_GATEWAY_HOST
metrics.reporter.promgateway.port: 80
metrics.reporter.promgateway.jobName: foo
metrics.reporter.promgateway.randomJobNameSuffix: true
metrics.reporter.promgateway.deleteOnShutdown: true
metrics.reporter.promgateway.interval: 60 SECONDS

我正在Hadoop 2.6.0上使用Flink 1.7.1

1 个答案:

答案 0 :(得分:1)

在我们的产品环境中,我们也遇到了同样的问题。如果pushgateway可以实现TTL for pushed metrics [1],它将非常有用。但是目前,我们使用外部调度系统检查flink作业是否还处于活动状态,然后通过pushgateway的rest api [2]删除指标。

[1] https://github.com/prometheus/pushgateway/issues/19

[2] https://github.com/prometheus/pushgateway#delete-method