Question

我们有大约30名操作员从事Flink工作。当我们以12个flink的并行度运行此作业时，总共输出400.000个指标，对于我们的指标平台而言，这是太多指标，无法很好地处理。

查看指标类型时，这似乎不是错误或类似的错误。

只有很多操作员拥有许多任务管理器和任务插槽时，度量标准的数量才会经常重复到足以达到400.000（也许重新启动作业也会重复度量标准的数量吗？）

这是我用于指标的配置：

metrics.reporters: graphite
metrics.reporter.graphite.class: org.apache.flink.metrics.graphite.GraphiteReporter
metrics.reporter.graphite.host: some-host.com
metrics.reporter.graphite.port: 2003
metrics.reporter.graphite.protocol: TCP
metrics.reporter.graphite.interval: 60 SECONDS
metrics.scope.jm: applications.__ENVIRONMENT__.__APPLICATION__.<host>.jobmanager
metrics.scope.jm.job: applications.__ENVIRONMENT__.__APPLICATION__.<host>.jobmanager.<job_name>
metrics.scope.tm: applications.__ENVIRONMENT__.__APPLICATION__.<host>.taskmanager.<tm_id>
metrics.scope.tm.job: applications.__ENVIRONMENT__.__APPLICATION__.<host>.taskmanager.<tm_id>.<job_name>
metrics.scope.task: applications.__ENVIRONMENT__.__APPLICATION__.<host>.taskmanager.<tm_id>.<job_name>.<task_id>.<subtask_index>
metrics.scope.operator: applications.__ENVIRONMENT__.__APPLICATION__.<host>.taskmanager.<tm_id>.<job_name>.<operator_id>.<subtask_index>

由于我们不需要全部400.000，是否有可能影响所公开的指标？

Answer 1

您可能正在经历某些Flink版本中存在的延迟度量的基数激增，其中从每个源子任务到每个操作员子任务的延迟都被跟踪。 Flink 1.7中解决了此问题。有关详细信息，请参见https://issues.apache.org/jira/browse/FLINK-10484和https://issues.apache.org/jira/browse/FLINK-10243。

要快速解决此问题，您可以尝试通过将plot(ax,x,fitfunc(vFitparam(1),vFitparam(2),vFitparam(3),vFitparam(4),vFitparam(5),x), ... );配置为0来禁用延迟跟踪。

Apache Flink-限制公开的指标数量

1 个答案: