Apache Flink-限制公开的指标数量

时间:2019-01-16 10:38:43

标签: apache-flink flink-streaming

我们有大约30名操作员从事Flink工作。当我们以12个flink的并行度运行此作业时,总共输出400.000个指标,对于我们的指标平台而言,这是太多指标,无法很好地处理。

查看指标类型时,这似乎不是错误或类似的错误。

只有很多操作员拥有许多任务管理器和任务插槽时,度量标准的数量才会经常重复到足以达到400.000(也许重新启动作业也会重复度量标准的数量吗?)

这是我用于指标的配置:

metrics.reporters: graphite
metrics.reporter.graphite.class: org.apache.flink.metrics.graphite.GraphiteReporter
metrics.reporter.graphite.host: some-host.com
metrics.reporter.graphite.port: 2003
metrics.reporter.graphite.protocol: TCP
metrics.reporter.graphite.interval: 60 SECONDS
metrics.scope.jm: applications.__ENVIRONMENT__.__APPLICATION__.<host>.jobmanager
metrics.scope.jm.job: applications.__ENVIRONMENT__.__APPLICATION__.<host>.jobmanager.<job_name>
metrics.scope.tm: applications.__ENVIRONMENT__.__APPLICATION__.<host>.taskmanager.<tm_id>
metrics.scope.tm.job: applications.__ENVIRONMENT__.__APPLICATION__.<host>.taskmanager.<tm_id>.<job_name>
metrics.scope.task: applications.__ENVIRONMENT__.__APPLICATION__.<host>.taskmanager.<tm_id>.<job_name>.<task_id>.<subtask_index>
metrics.scope.operator: applications.__ENVIRONMENT__.__APPLICATION__.<host>.taskmanager.<tm_id>.<job_name>.<operator_id>.<subtask_index>

由于我们不需要全部400.000,是否有可能影响所公开的指标?

1 个答案:

答案 0 :(得分:1)

您可能正在经历某些Flink版本中存在的延迟度量的基数激增,其中从每个源子任务到每个操作员子任务的延迟都被跟踪。 Flink 1.7中解决了此问题。有关详细信息,请参见https://issues.apache.org/jira/browse/FLINK-10484https://issues.apache.org/jira/browse/FLINK-10243

要快速解决此问题,您可以尝试通过将 plot(ax,x,fitfunc(vFitparam(1),vFitparam(2),vFitparam(3),vFitparam(4),vFitparam(5),x), ... ); 配置为0来禁用延迟跟踪。