在这里抓我的头。希望有人可以帮我排除故障。
我有一台Dell PowerEdge SC1435服务器已经运行了以前版本的ubuntu一段时间了。 (我相信这是13.10服务器x64)
我最近重新格式化了驱动器(SSD)并安装了ubuntu服务器14.04.1 x64。
通过安装看起来一切都很好但是机器在内核输出结束时首次启动时挂起,就在我希望屏幕清除并出现登录提示之前。在我看到的内核输出结束时没有明显的错误。 (有一条关于"没有使用不可靠的cpu热传感器的消息"但无论是否启动,它都会出现在那里)
我给了它好5分钟然后强行重启。令我惊讶的是,它在bios post后大约1-2秒内启动到登录提示。我再次重新启动它似乎暂停了几秒钟之前它挂起,但继续进入登录屏幕。重新启动再次快速。所以在这一点上,我认为这只是随机的一次性故障之一,我永远不会解释,所以我继续前进。
我安装了几个软件包(在其他硬件上安装在相同操作系统版本上的完全相同的软件包),做了升级和dist-upgrade然后重新启动。它似乎再次挂起所以我开车到数据中心并连接一个控制台只是为了得到一个空白的屏幕。强制重启。 (还设置了ipmi进行远程重启并摆脱了grub recordfail,所以它不会等我输入!)
昨晚很晚。我回到家,做了一些没有问题的重新启动,所以去睡觉了。 今天我再次重新启动检查它,然后再次崩溃了。我远程强制重新启动它。
至于这一点,我开始挖掘更多,并立即注意到一些非常奇怪的东西。
top - 14:18:35 up 8 min, 1 user, load average: 1.00, 0.85, 0.45
Tasks: 148 total, 1 running, 147 sleeping, 0 stopped, 0 zombie
%Cpu(s): 0.1 us, 0.3 sy, 0.0 ni, 99.6 id, 0.0 wa, 0.0 hi, 0.0 si, 0.0 st
KiB Mem: 33013620 total, 338928 used, 32674692 free, 9740 buffers
KiB Swap: 3906556 total, 0 used, 3906556 free. 47780 cached Mem
PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND
1 root 20 0 33508 2772 1404 S 0.0 0.0 0:03.82 init
2 root 20 0 0 0 0 S 0.0 0.0 0:00.00 kthreadd
3 root 20 0 0 0 0 S 0.0 0.0 0:00.00 ksoftirqd/0
5 root 0 -20 0 0 0 S 0.0 0.0 0:00.00 kworker/0:0H
6 root 20 0 0 0 0 S 0.0 0.0 0:00.00 kworker/u16:0
8 root 20 0 0 0 0 S 0.0 0.0 0:00.24 rcu_sched
9 root 20 0 0 0 0 S 0.0 0.0 0:00.02 rcuos/0
10 root 20 0 0 0 0 S 0.0 0.0 0:00.00 rcuos/1
11 root 20 0 0 0 0 S 0.0 0.0 0:00.00 rcuos/2
此服务器完全未使用且处于空闲状态,但它的1分钟平均负载为1.00? 当我观察其他值时 - 5分15分钟似乎也朝向1.00,所以我认为它们在某些时候都会达到1.00。 (" 1正在运行"是最佳流程)
我以前从来没有这样做过,因为我不知道导致启动崩溃的原因,我现在假设两者可能相关。
我想要做的是识别(并希望消除)导致错误负载平均值和崩溃问题的原因。
到目前为止,我一直无法确定哪个进程可以等待某种资源来生成该平均负载。
如果有人能帮助我尝试追踪它,我将非常感激。
top显示所有进程几乎总是在睡觉。有些偶尔突然出现,但我认为这很正常。 CPU使用率大多显示100%IDLE,非常偶然下降到99%左右。
nmon并没有给我很多。一切看起来都是空闲的。iotop显示几乎没有任何流量。 (再次,非常偶尔的磁盘访问点)
中断频率似乎很低。从我能看到的方式低于100 /秒。
我看到许多谷歌讨论暗示:
echo 100 > /sys/module/ipmi_si/parameters/kipmid_max_busy_us
..没效果。
服务器中的RAM是ECC并且测试通过。
服务器安装是最小的' (F4选项)在安装期间勾选OpenSSH服务器。 之后安装了几个包,包括vim,bcache-tools,bridge-utils,qemu,software-properties-common,open-iscsi,qemu-kvm,cpu-checker,socat,ntp和nodejs。 (想想就是这样)
我尝试过禁用和删除bcache内核模块。没有效果。 停止了iscsi服务..没有效果。 (虽然此服务器上没有配置任何内容)
我会把它留在那里,然后才变得疯狂。如果有人能帮我解决这个问题,我将非常感激。
干杯,
詹姆斯
答案 0 :(得分:0)
1.0的负载平均值是bcache回写线程停留在不间断睡眠中的假象。它可以在3.19内核或更新版本中更正。例如,请参阅this Debian bug report。