监控&提醒生产应用程序

时间:2015-06-05 13:21:47

标签: performance architecture monitoring

我一直在寻找关于如何监控和警告生产应用程序一段时间的讨论,但没有找到任何压倒性的信息。

我正在将应用程序的庞然大物转换为更小的微服务,并认为现在是实现对此应用程序的更好监视的好时机。有哪些方法,最好不使用付费应用程序,来监控整个应用程序和个人微服务的健康状况?

我考虑过的一些可能性 - 构建一个定期检查或接收心跳的小应用程序 - 在openstack上使用kabana设置logstash,以监控服务吐出的各种日志。

Aaaannnddd,这就是我得到的一切。

3 个答案:

答案 0 :(得分:4)

我们正在运行一个相当大的环境(数百台服务器),这是基于微服务/基于docker,多层,高可用性和完全弹性。

在监控和警报方面,我们使用了两种不同的工具:

  • Nagios 用于可用性监控 - 如果服务中断,缺少资源或遭受任何阻止其运行的其他问题,它基本上会向我们发送电子邮件

  • ELK - 我们使用它来查找问题的根本原因,并在实际影响应用程序/业务之前提醒问题和趋势。

因此,当存在重大问题时,Nagios会发出警报,我们将跳转到日志分析控制台以尝试查找问题。在某些情况下,ELK会在问题开始建立之前发出警报,然后才能在Nagios上看到它。这样我们就可以防止问题恶化。您可以在此处阅读有关在AWS上设置自己的ELK设置的更多信息 - http://logz.io/blog/deploy-elk-production/

显然有许多商业工具可用于监控,警报和日志分析,但由于您正在寻找免费/开源工具,我建议使用这些工具。

**作为免责声明,我是Logz.io的首席执行官和联合创始人,其中包括提供Enterprise-ELK作为服务

答案 1 :(得分:2)

监控有两个要素:

可用性 - 它会起作用吗? 性能 - 它是否正常工作

可用性很简单,有数百种工具可以进行综合交易。你可以使用一项服务(我可以提供特定的生活,但有很多从pingdom到24x7的站点,到各种其他点解决方案)

如果您想了解性能,请查看APM技术。其中包括更简单的跟踪最终用户和组件级别性能的跟踪产品,以及实际将整个事务路径拼接在一起的更复杂的工具,包括浏览器数据。

Gartner对这两个市场进行了研究(我在离开之前写了很多)。我在AppDynamics公司工作,该公司在单一产品中完成上述所有工作,包括应用程序可用性和性能(移动或Web)。我们提供SaaS解决方案,您也可以在内部安装。最后,我们还将数据拉到一起,包括日志到后端。

您可以构建可用性监视和日志收集,您还可以收集客户端数据和您发出的其他遥测数据,但是没有一个好的开源APM工具可用于真正的事务跟踪技术。还要花多少时间来管理ELK,opentsdb,graphite,statsd,collectd,Nagios等等来完成这项工作......

答案 2 :(得分:0)

有多种方法可以监控您的生产服务器,您可以使用一些像Nagios这样的免费有限服务器监视器,这种监视器很难配置而且工作起来也不那么简单。或者你可以看看这个市场上的一些玩家,比如Stackify,LogicMonitor或其他几个。如果您需要其他工具,如代码级别监控,那么您需要查看提供APM(应用程序性能管理)的供应商,例如Stackify,New Relic,AppDynamics您将发现巨大的价格差异和功能,因此这真的是关于你的要求。