我一直在使用Copperegg一段时间,直到最近我一直很满意,在那里我遇到了一些问题。它被用于监控必须全天候运行的多个EC2实例。
上周我收到了虚假警报,表示服务器没有停机,我可以应付,但我也没有得到警告。当1分钟后触发警报时,一台服务器的CPU占用率超过5分钟。 Copperegg的支持并不是那么有用,只是同意应该触发警报。
这些问题的后者是不可接受的,如果它在工作时间之外再次发生,那么将会出现严重的问题。
所以,我正在寻找可以做同样工作的替代服务。我看过Datadog和New Relic,但两者都有一个很大的问题,因为他们只会在发生问题5分钟后提醒我一个问题,而不是我可以用Copperegg得到的1分钟。
还有哪些可以做同样的工作,还会与Pager Duty整合?
答案 0 :(得分:7)
我相信亚马逊实际上提供的服务可以实现您的目标 - CloudWatch (pricing) 。我将逐一接受你的观点。请注意,之前我实际上并没有使用,但文档相当清楚。
当1分钟后触发警报时,一台服务器的CPU占用率超过5分钟
看起来CloudWatch可以配置为在满足条件一分钟后发送警报(我会到达):
实际上可以为许多其他指标设置条件 - 这是我在我的一个实例上看到的,我认为详细的监控(我免费使用)可能会有更多:
还有哪些可以做同样的工作,还会与Pager Duty整合?
我假设你在谈论this。事实证明,Pager Duty只有helpful guide才能整合CloudWatch。多好啊!
Here's the pricing page,因为你可能想解析它而不是我告诉你。不过我会简要介绍一下:
您不需要基本监控,因为它只会每五分钟为您提供一次指标(您已经指出这是不可接受的。)相反,您需要详细监控(每分钟一次)。
对于EC2实例,详细监控的价格为每个实例每月3.50美元。此外,您发出的每个警报每月0.10美元。与CopperEgg's pricing相比,这实际上非常便宜 - 对于9个实例和大量警报,每月70美元/月对可能每月30美元。实际上,你可能会支付更多10美元/月的费用。
Pager Duty的教程建议您使用SNS,这是另一项费用。好事:it's dirt cheap。每百万通知0.60美元。如果您在一年内为SNS获得超过1美元的成本,则需要在服务器上执行一些严格的可靠性改进。
您不仅限于亚马逊预先打包的指标!您实际上可以通过PUT请求向Cloudwatch发送自定义指标(完成cronjob所需的时间等等)。非常方便。
提交由您自己的应用程序(或上面未提及的AWS资源)生成的自定义指标,并让它们由Amazon CloudWatch监控。您可以通过简单的Put API请求将这些指标提交到Amazon CloudWatch。
(来自here)
总而言之:CloudWatch非常便宜,可以播放1分钟的频率统计数据,并且可以与Pager Duty集成。
答案 1 :(得分:3)
简而言之,服务器密度是一种监控工具,可监控所有相关的服务器指标。您可以查看此页面where it’s all described。
当1分钟后触发警报时,一台服务器的CPU占用率超过5分钟
服务器密度的开源代理每分钟收集数据并将数据发布到服务器,您可以自行决定何时触发该警报。在下面的警报中,您可以看到警报将在1分钟后提醒1个人,然后每5分钟反复提醒一次。
您还可以提醒许多其他指标。
还有哪些可以做同样的工作,还会与Pager Duty整合?
服务器密度还与PagerDuty集成。您唯一需要做的就是generate an api key at PagerDuty,然后在设置中提供。
只需在设置中提供API密钥,然后您可以检查pagerduty作为警报接收者之一。
您可以找到pricing page here。我将简要介绍一下它。一台服务器的价格从10美元起加一次网络检查,然后每台服务器的价格越低,您添加的服务器就越多。
每分钟都会监控一次,并且添加或触发的警报数量不会增加任何费用,即使这是您的电话号码的短信。成本比Cloudwatch示例稍贵,但支持很好。如果你在使用copperegg之前也有migration tool。
服务器密度允许您监控所有事情!那么您唯一需要做的就是向我们发送自定义指标,您可以使用自己或其他人编写的插件。
我不得不说服务器密度提供的图表有点类似于眼睛糖果。我见过的大多数其他监控解决方案都有相当沉闷的仪表板。
它会为你完成这项工作。不像CloudWatch那么便宜,但不会锁定您进入AWS。它将为您提供1分钟的频率指标,并与pagerduty +更多东西集成。