Apache Flink的关键健康指标

时间:2019-02-01 12:12:21

标签: monitoring apache-flink

我正在尝试找出Apache Flink的关键健康指标。 Flink文档提供了大量指标,很难找出重要指标。

1 个答案:

答案 0 :(得分:3)

一些建议:

如果您使用的是Kafka,则Kafka客户端指标将转发到Flink的指标系统中。监视消费者滞后会通知您工作是否无法跟上数据流入的速度。

如果您的工作未能取得进展,那么查看currentLowWatermark可以帮助您确定哪些任务阻碍了进度。

注意检查点很聪明。 lastCheckpointDurationlastCheckpointSizenumberOf{Completed,Failed,InProgress}Checkpoints在这里很有用。

uptimedowntime可以帮助您跟踪工作花费在恢复上的时间,而不是实际运行的时间。

社区最近一直在讨论如何更好地检测背压。您会发现that discussion in the dev mailing list archives