我们在大机器(64GB,10个CPU)上的docker环境中运行netdata,其中许多机器(> 40)运行相同的设置,包括postgres,mongo,tomcat,httpd,solr。
在每台机器内部,我们都有一个netdata服务,它收集详细数据并将其发送到中央netdata实例。我们在两个不同的数据中心运行着6台这样的大型机器。
一切正常:我们面临的问题只有一个: - 由于我们在所有机器中集成了netdata,因此CPU负载每90分钟增加一次,最高负载为120(对于10 CPU系统来说,这是很高的,其中20个可以在短时间内完成)。
负载仅保持高位几分钟然后又回到2-4级(这意味着,大多数机器大部分时间都处于空闲状态,这是真的)。
我们检查过程并发现没有一个产生高负荷的过程。唯一的问题是,不同机器的所有netdata python脚本似乎同时运行并共同产生高负载。)
我们已经做了什么: - 大多数netdata插件都关闭了:我们只使用cpu,网络,磁盘,tomcat,apache的监控 - netdata插件每5秒运行一次(任何更高的频率都会产生更多负载,服务器无法恢复正常负载) - 关闭插件来测量postgres和mongodb(我想监视这个,但是它们完全破坏了服务器导致了很多负载)
我的问题是:
我们如何更改netdata配置,以便不会发生常规的高负载CPU负载。我们有40个相同的配置,40个tomcats / apache / sql等。它是与机器内的netdata组合的docker环境吗?
我们只能猜测为什么它每90分钟才会发生一次。可能是关于netdata如何调用插件的时间模式,我不知道......
如何在像这样的系统中管理监控的任何提示或建议?