我们使用一台Zabbix(3.4.7)服务器和8个代理设置了分布式监视集群:
Zabbix:
OS: Debian Stretch
CPU: 16*2.27GHz
RAM: 48GB
Disk: Raid1 10K (Non-SSD)
LogFile=/var/log/zabbix/zabbix_server.log
PidFile=/var/run/zabbix/zabbix_server.pid
DBName=zabbix
DBUser=zabbix
DBHost=127.0.0.1
DBPort=3307
LogFileSize=0
DBPassword=****
Timeout=4
AlertScriptsPath=/etc/zabbix/alert.d/
FpingLocation=/usr/bin/fping
LogSlowQueries=3000
Include=/etc/zabbix/zabbix_server.conf.d/*.conf
StartAlerters=10
StartPollers=80
StartPollersUnreachable=80
StartTrappers=20
StartPingers=30
StartEscalators=5
CacheSize=8G
StartDBSyncers=16
HistoryCacheSize=2048M
TrendCacheSize=256M
ValueCacheSize=10G
HistoryIndexCacheSize=2G
ExternalScripts=/etc/zabbix/alert.d/
SSHKeyLocation=/nonexistent/.ssh
代理:
OS: Debian Stretch
CPU: 15*2.5GHz
RAM: 6GB
Disk: Raid1 10K (Non-SSD)
Server=XXXX
Hostname=zbx-lte
LogFile=/var/log/zabbix/zabbix_proxy.log
LogFileSize=0
PidFile=/var/run/zabbix/zabbix_proxy.pid
SocketDir=/var/run/zabbix
DBName=zabbix
DBUser=zabbix
DBPassword=159753
ConfigFrequency=600
DataSenderFrequency=1
StartPollers=240
StartPollersUnreachable=80
StartTrappers=20
StartPingers=80
SNMPTrapperFile=/var/log/snmptrap/snmptrap.log
CacheSize=1G
StartDBSyncers=16
HistoryCacheSize=2048M
HistoryIndexCacheSize=2G
Timeout=6
ExternalScripts=/usr/lib/zabbix/externalscripts
FpingLocation=/usr/bin/fping
LogSlowQueries=3000
我们正在通过Zabbix监视1650个节点(snmp,icmp,代理,ssh,外部脚本和外部应用程序)
自大约2个月前以来,我们在特定的zabbix代理(图片中为zbx-lte)的非icmp图(图片:5.png)中看到了很多延迟
此图与设备(带有snmp v2)有关。 (此代理上还有许多其他类似的图表) 我捕获了相关zabbix代理的网络流量,对于其中一项,zabbix代理仅发送16个查询而不是60个查询(间隔为1m,持续1小时)。
如果我将此设备更改为由Zabbix Server或任何其他代理监视,则一切正常工作
请帮助我找到根本原因。
答案 0 :(得分:0)
我明白了!
令人惊讶的是,答案很有趣!
zabbix_proxy中的服务器地址是FQDN地址,当我将其添加到/ etc / hosts时,我们的性能问题已解决。