我们正在运行客户QA环境中的良好数量用户的性能负载,我们也使用PERFMON和DEBUGDIAG进行监控,以查看是否创建了一些转储。运行Load 10分钟后,SPAgent服务崩溃,Application崩溃,Mod_jk充满错误 -
[error] ajp_send_request :: jk_ajp_common.c(1630):( ajp13)连接到后端失败。 Tomcat可能没有启动或正在侦听错误的端口(errno = 61)
此外,Error_log充斥着 - [mpm_winnt:warn] [pid 5764:tid 4936](OS 64)指定的网络名称不再可用。 :AH00341:winnt_accept:异步AcceptEx失败。 [mpm_winnt:notice] [pid 5764:tid 512] AH00364:Child:所有工作线程都已退出。
在其中一个错误日志中 -
[Fri Feb 13 16:09:46.544761 2015] [mpm_winnt:notice] [pid 8120:tid 572] AH00455:Apache / 2.4.4(Win32)mod_jk / 1.2.37已配置 - 恢复正常操作 [星期五2月13日16:09:46.544761 2015] [mpm_winnt:notice] [pid 8120:tid 572] AH00456:服务器内置:2013年8月23日00:24:10 [星期五2月13日16:09:46.544761 2015] [核心:通知] [pid 8120:tid 572] AH00094:命令行:' C:\ CA \ Agent-for-SharePoint \ httpd \ bin \ httpd.exe -d C:/ CA / Agent-for-SharePoint / httpd' [[2月13日星期五16:09:46.546761 2015] [mpm_winnt:通知] [pid 8120:tid 572] AH00418:父级:创建子进程5764 [Fri Feb 13 17:01:53.622513 2015] [mpm_winnt:notice] [pid 8120:tid 572] AH00422:Parent:收到关机信号 - 关闭服务器。 [星期五2月13日17:01:55.706721 2015] [mpm_winnt:notice] [pid 8120:tid 572] AH00430:父:子进程5764成功退出。
Server.conf -
worker.ajp13.port=8009
worker.ajp13.host=localhost
worker.shutdown.port=8005
worker.ajp13.reply_timeout=3600000
worker.ajp13.retries=2
ajp13.accept_count=64
ajp13.min_spare_threads=64
ajp13.max_threads=1024
worker.ajp13.connection_pool_timeout=0
worker.ajp13.max_packet_size=16384
用户负载为650,大约每12分钟一次,用户数约为300-330个用户,SPAgent服务崩溃。这对生产环境来说要小得多。任何人都可以提出可能的原因。
然而,主要问题是SPAgent正在关闭并且没有自动响应,因为他们几乎没有崩溃。他们手动需要启动服务才能使其正常工作。为此,我们试图在QA环境中重现。