我开发了一项新服务,将在我公司内部使用。我有关于监视器的以下问题
我知道这是一个模糊的问题,解决方案可能因服务而异。但我对应该遵循的最佳实践更感兴趣。
PS :我们已经有了一个监控系统,我们只是尝试使用正确的阈值创建警报。
答案 0 :(得分:0)
我从上面感受到两个问题:
嗯,首先,理想的情况是延迟和可用性保证是您初始要求的一部分。如果您的服务不是为此设计的,那么很难将现有系统容纳到阈值或SLA。因此,希望您将这些数字作为要求(并纳入您的设计),或者在设计系统时考虑到一些目标。否则,您的服务不会比最好的情况下做得更好。所以选择那个。除非你可以选择重新构建系统,在这种情况下,回到原点。
对于各种流量模式的警报,它取决于您可以使用哪种工具进行监控和警报。您提到您的公司已经拥有专用的监控系统;可能存在允许您在创建错误和延迟阈值时定义规则的解决方案。根据这些工具的复杂程度,这些规则甚至可以允许您定义相对于某个其他指标的阈值(例如,此服务支持的主要产品/网站的总流量)。如果这样的工具不可用,那就变得很难,但是你可以通过依赖百分位度量而不是绝对阈值来获得一些杠杆作用。像错误一样不应超过.001%。如果您的监控系统不支持此类计算,您可以探索优秀的metrics library written by Coda Hale来确定服务本身中的某些百分位数。