我正在尝试找出Apache Flink的关键健康指标。 Flink文档提供了大量指标,很难找出重要指标。
答案 0 :(得分:3)
一些建议:
如果您使用的是Kafka,则Kafka客户端指标将转发到Flink的指标系统中。监视消费者滞后会通知您工作是否无法跟上数据流入的速度。
如果您的工作未能取得进展,那么查看currentLowWatermark
可以帮助您确定哪些任务阻碍了进度。
注意检查点很聪明。 lastCheckpointDuration
,lastCheckpointSize
和numberOf{Completed,Failed,InProgress}Checkpoints
在这里很有用。
uptime
和downtime
可以帮助您跟踪工作花费在恢复上的时间,而不是实际运行的时间。
社区最近一直在讨论如何更好地检测背压。您会发现that discussion in the dev mailing list archives。