应用错误收集

我们在大机器（64GB，10个CPU）上的docker环境中运行netdata，其中许多机器（> 40）运行相同的设置，包括postgres，mongo，tomcat，httpd，solr。

在每台机器内部，我们都有一个netdata服务，它收集详细数据并将其发送到中央netdata实例。我们在两个不同的数据中心运行着6台这样的大型机器。

一切正常：我们面临的问题只有一个： - 由于我们在所有机器中集成了netdata，因此CPU负载每90分钟增加一次，最高负载为120（对于10 CPU系统来说，这是很高的，其中20个可以在短时间内完成）。

负载仅保持高位几分钟然后又回到2-4级（这意味着，大多数机器大部分时间都处于空闲状态，这是真的）。

我们检查过程并发现没有一个产生高负荷的过程。唯一的问题是，不同机器的所有netdata python脚本似乎同时运行并共同产生高负载。）

我们已经做了什么： - 大多数netdata插件都关闭了：我们只使用cpu，网络，磁盘，tomcat，apache的监控 - netdata插件每5秒运行一次（任何更高的频率都会产生更多负载，服务器无法恢复正常负载） - 关闭插件来测量postgres和mongodb（我想监视这个，但是它们完全破坏了服务器导致了很多负载）

我的问题是：

我们如何更改netdata配置，以便不会发生常规的高负载CPU负载。我们有40个相同的配置，40个tomcats / apache / sql等。它是与机器内的netdata组合的docker环境吗？

我们只能猜测为什么它每90分钟才会发生一次。可能是关于netdata如何调用插件的时间模式，我不知道......

如何在像这样的系统中管理监控的任何提示或建议？

在Docker环境中netdata安装上经常出现高CPU负载

0 个答案: