是否有为新开发的服务创建监视器的指南/最佳实践?

时间:2016-11-29 04:19:32

标签: monitoring alarm monitor

我开发了一项新服务,将在我公司内部使用。我有关于监视器的以下问题

  • 如何确定监视器的阈值(假设日志文件中的错误数/ 5分钟)?它应该是峰值流量的3%还是3%的平均流量?
  • 如果交通是正弦波形式怎么办?我如何确保在非高峰时段不会错过任何问题,同时确保在高峰时段不会因为误报而感到惊慌。

我知道这是一个模糊的问题,解决方案可能因服务而异。但我对应该遵循的最佳实践更感兴趣。

PS :我们已经有了一个监控系统,我们只是尝试使用正确的阈值创建警报。

1 个答案:

答案 0 :(得分:0)

我从上面感受到两个问题:

  1. 对于新服务,如何选择正确的服务 错误/延迟/可用性阈值?
  2. 获得服务     有正弦波模式的交通,我该如何调整我的     在低/高流量情况下不会错过错误的阈值?
  3. 嗯,首先,理想的情况是延迟和可用性保证是您初始要求的一部分。如果您的服务不是为此设计的,那么很难将现有系统容纳到阈值或SLA。因此,希望您将这些数字作为要求(并纳入您的设计),或者在设计系统时考虑到一些目标。否则,您的服务不会比最好的情况下做得更好。所以选择那个。除非你可以选择重新构建系统,在这种情况下,回到原点。

    对于各种流量模式的警报,它取决于您可以使用哪种工具进行监控和警报。您提到您的公司已经拥有专用的监控系统;可能存在允许您在创建错误和延迟阈值时定义规则的解决方案。根据这些工具的复杂程度,这些规则甚至可以允许您定义相对于某个其他指标的阈值(例如,此服务支持的主要产品/网站的总流量)。如果这样的工具不可用,那就变得很难,但是你可以通过依赖百分位度量而不是绝对阈值来获得一些杠杆作用。像错误一样不应超过.001%。如果您的监控系统不支持此类计算,您可以探索优秀的metrics library written by Coda Hale来确定服务本身中的某些百分位数。