我遇到一个非常奇怪的问题,影响我运行CentOS 6.6 Linux的HP DL160服务器。经过操作系统的全新启动大约24小时后,所有与其连接的ssh连接将定期冻结并停止响应几分钟,恢复然后再次冻结。我注意到在冻结期间[events / 0]进程将处于D状态(不间断睡眠)
macferd:~ jmehring$ ssh -l root hpc-laird.usc.edu 'ps auwx | grep events | grep -v grep'
Warning: untrusted X11 forwarding setup failed: xauth key data not generated
root 35 0.0 0.0 0 0 ? D Apr28 0:28 [events/0]
root 36 0.0 0.0 0 0 ? S Apr28 0:02 [events/1]
root 37 0.0 0.0 0 0 ? S Apr28 0:02 [events/2]
root 38 0.0 0.0 0 0 ? S Apr28 0:02 [events/3]
root 39 0.0 0.0 0 0 ? S Apr28 0:02 [events/4]
root 40 0.0 0.0 0 0 ? S Apr28 0:02 [events/5]
root 41 0.0 0.0 0 0 ? S Apr28 0:01 [events/6]
root 42 0.0 0.0 0 0 ? S Apr28 0:02 [events/7]
奇怪的是,我能够在机器上创建新的ssh连接,如果我作为ssh连接的一部分运行命令,它将完成并返回结果。我对以前连接的sshd进程之一做了一个strace,看看如下。
read(9, "\n\33(B\33[m\33[39;49m\33[31m 48 root "..., 16384) = 220
write(3, "\223d\205g<\265ypY\3513/\16Ee\275#\1RT\301\205\371\35\227\20l\332w\275\335\377"..., 4144) = 4144
select(10, [3 5 9], [3], NULL, NULL) = 1 (out [3])
rt_sigprocmask(SIG_BLOCK, [CHLD], [], 8) = 0
rt_sigprocmask(SIG_SETMASK, [], NULL, 8) = 0
write(3, "CD\346\371H\326\4[\360l\212`Q'\371V\\/g\311<\276\230<\f\276\262\314\3509\353\273"..., 256) = 256
select(10, [3 5 9], [], NULL, NULL
<< FREEZE HAPPENS HERE AND THEN CONTINUES >>
) = 2 (in [3 9])
rt_sigprocmask(SIG_BLOCK, [CHLD], [], 8) = 0
rt_sigprocmask(SIG_SETMASK, [], NULL, 8) = 0
read(9, "\33[H\33(B\33[mtop - 16:05:33 up 1 day"..., 16384) = 4095
对进程执行lsof显示10是/ dev / ptmx文件描述符。
sshd 21168 root 0u CHR 1,3 0t0 4165 /dev/null
sshd 21168 root 1u CHR 1,3 0t0 4165 /dev/null
sshd 21168 root 2u CHR 1,3 0t0 4165 /dev/null sshd 21168 root 3r IPv4 103101 0t0 TCP XXXX:ssh->XXXX:38579 (ESTABLISHED)
sshd 21168 root 4w unix 0xffff880871ae4f00 0t0 103150 socket
sshd 21168 root 5u FIFO 0,8 0t0 103153 pipe
sshd 21168 root 6w FIFO 0,8 0t0 103153 pipe
sshd 21168 root 7u CHR 5,2 0t0 5863 /dev/ptmx
sshd 21168 root 9u CHR 5,2 0t0 5863 /dev/ptmx
sshd 21168 root 10u CHR 5,2 0t0 5863 /dev/ptmx
重新启动会清除此情况,但大约24小时后会再次发生。
我怀疑硬件问题,但没有log或dmesg输出指示可能发生的情况。我有3台其他DL160机器运行同样的CentOS 6.6安装,没有任何问题。
有没有人对如何找出导致events / 0线程阻塞的内容有任何想法?