为什么CentOS 6.6事件/ 0内核线程陷入不间断睡眠(D)状态?

时间:2015-04-29 23:31:14

标签: linux linux-kernel centos6

我遇到一个非常奇怪的问题,影响我运行CentOS 6.6 Linux的HP DL160服务器。经过操作系统的全新启动大约24小时后,所有与其连接的ssh连接将定期冻结并停止响应几分钟,恢复然后再次冻结。我注意到在冻结期间[events / 0]进程将处于D状态(不间断睡眠)

macferd:~ jmehring$ ssh -l root hpc-laird.usc.edu 'ps auwx | grep events | grep -v grep'
Warning: untrusted X11 forwarding setup failed: xauth key data not generated
root        35  0.0  0.0      0     0 ?        D    Apr28   0:28 [events/0]
root        36  0.0  0.0      0     0 ?        S    Apr28   0:02 [events/1]
root        37  0.0  0.0      0     0 ?        S    Apr28   0:02 [events/2]
root        38  0.0  0.0      0     0 ?        S    Apr28   0:02 [events/3]
root        39  0.0  0.0      0     0 ?        S    Apr28   0:02 [events/4]
root        40  0.0  0.0      0     0 ?        S    Apr28   0:02 [events/5]
root        41  0.0  0.0      0     0 ?        S    Apr28   0:01 [events/6]
root        42  0.0  0.0      0     0 ?        S    Apr28   0:02 [events/7] 

奇怪的是,我能够在机器上创建新的ssh连接,如果我作为ssh连接的一部分运行命令,它将完成并返回结果。我对以前连接的sshd进程之一做了一个strace,看看如下。

read(9, "\n\33(B\33[m\33[39;49m\33[31m   48 root  "..., 16384) = 220
write(3, "\223d\205g<\265ypY\3513/\16Ee\275#\1RT\301\205\371\35\227\20l\332w\275\335\377"..., 4144) = 4144
select(10, [3 5 9], [3], NULL, NULL)    = 1 (out [3])
rt_sigprocmask(SIG_BLOCK, [CHLD], [], 8) = 0
rt_sigprocmask(SIG_SETMASK, [], NULL, 8) = 0
write(3, "CD\346\371H\326\4[\360l\212`Q'\371V\\/g\311<\276\230<\f\276\262\314\3509\353\273"..., 256) = 256
select(10, [3 5 9], [], NULL, NULL

<< FREEZE HAPPENS HERE AND THEN CONTINUES >>

)     = 2 (in [3 9])
rt_sigprocmask(SIG_BLOCK, [CHLD], [], 8) = 0
rt_sigprocmask(SIG_SETMASK, [], NULL, 8) = 0
read(9, "\33[H\33(B\33[mtop - 16:05:33 up 1 day"..., 16384) = 4095

对进程执行lsof显示10是/ dev / ptmx文件描述符。

sshd    21168 root    0u   CHR                1,3      0t0    4165 /dev/null
sshd    21168 root    1u   CHR                1,3      0t0    4165 /dev/null
sshd    21168 root    2u   CHR                1,3      0t0    4165 /dev/null    sshd    21168 root    3r  IPv4             103101      0t0     TCP XXXX:ssh->XXXX:38579 (ESTABLISHED)
sshd    21168 root    4w  unix 0xffff880871ae4f00      0t0  103150 socket
sshd    21168 root    5u  FIFO                0,8      0t0  103153 pipe
sshd    21168 root    6w  FIFO                0,8      0t0  103153 pipe
sshd    21168 root    7u   CHR                5,2      0t0    5863 /dev/ptmx
sshd    21168 root    9u   CHR                5,2      0t0    5863 /dev/ptmx
sshd    21168 root   10u   CHR                5,2      0t0    5863 /dev/ptmx

重新启动会清除此情况,但大约24小时后会再次发生。

我怀疑硬件问题,但没有log或dmesg输出指示可能发生的情况。我有3台其他DL160机器运行同样的CentOS 6.6安装,没有任何问题。

有没有人对如何找出导致events / 0线程阻塞的内容有任何想法?

0 个答案:

没有答案