应用错误收集

我想通过说我从来没有参加过网络课程，但我在工作中学习，这样做。像TCP / IP网络这样的东西我有一个非常基本的把握，如果你认为这会妨碍我的尝试，请告诉我。

我手头的任务就是：我有一个Open Stack网络，其中有一堆节点可以相互通信，所有运行的CentOS虚拟机（只是为了简单起见），应用程序运行在顶层他们该任务基本上是找到一种方法来监视每个节点的ping并报告何时某种消息（可能通过http）报告发生的事情。检查实际延迟问题的逻辑并不是我所挣扎的，它是完成此任务的最佳结构。

我正在考虑使用Nagios并设置分布式监控系统。基本上我的计划是在编写我的插件之后在每个节点上安装nagios（除非它已经提供或存在），并且它只需在网络安装后ping网络中的其他所有内容，其他节点在它加入网络时就ping它被检测到。我不确定这是多么可扩展，因为如果节点数量增加很多，每个节点ping每个其他节点实际上是一件好事吗？它真的最终会给网络带来很大的压力吗？

这是个坏主意吗？我知道一个更有效的解决方案是，只要每个节点都被检查（不一定必须让每个节点连接到每个其他节点）都更有效。将其可视化为具有几个点的图形，它将是双向图形，其中仅一条路径连接每个点而不是每个可能的点具有彼此之间的边缘。但我不知道这是否是我应该考虑的水平。

简而言之，我要问的是：如何在一堆Open Stack节点之间建立ping监控系统？

如果这个问题有意义，请告诉我。感谢。

适用于分布式监控和跟踪网络延迟/丢失的良好设置

1 个答案: