内核BUG:进程mmsbox中的页面状态错误

时间:2013-12-19 11:01:19

标签: amazon-ec2 linux-kernel

我遇到了这个问题:BUG:来自Linux的进程mmsbox中的页面状态错误。我们使用3台来自亚马逊的相同服务器运行此内核:

Linux版本3.4.73-64.112.amzn1.x86_64(mockbuild @ gobi-build-31003)(gcc版本4.6.3 20120306(Red Hat 4.6.3-2)(GCC))#1 SMP Tue Dec 10 01 :50:05 UTC 2013

在我们的生产服务器上,这种情况在2个月内发生了几次。所有3台服务器同时在同样的工作下同样工作,上次发生的所有3台工作只有一台工作在下降。剩下的两个确实有效。

其他时间我们有一天4次崩溃,他们正在下降,重新启动后工作正常。

这似乎很随意,我不知道从哪里开始。

我在线搜索,我发现自3.2.0版以来这是内核的已知问题,但也发现有人在内核3.8.x上报告了同样的问题

以下是我们从系统日志中获得的回溯。

Dec 13 06:16:39 mmsc-04 kernel: [6139473.982158] BUG: Bad page state in process mmsbox pfn:42862 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982178] page:ffffea00010a1880 count:2 mapcount:0 mapping:ffff8800208ea450 index:0x0 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982185] page flags: 0x10000000000083c(referenced|uptodate|dirty|lru|private) 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982197] Modules linked in: sunrpc ipv6 binfmt_misc scsi_mod crc32c_intel microcode ext4 mbcache jbd2 crc16 dm_mirror dm_region_hash dm_log dm_mod [last unloaded: scsi_wait_scan] 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982224] Pid: 32246, comm: mmsbox Not tainted 3.4.62-53.42.amzn1.x86_64 #1 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982231] Call Trace: 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982242] [<ffffffff8110a21f>] bad_page+0x9f/0xf0 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982248] [<ffffffff8110b947>] get_page_from_freelist+0x707/0x820 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982256] [<ffffffff813e6019>] ? schedule+0x29/0x70 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982264] [<ffffffff813e514d>] ? schedule_hrtimeout_range_clock+0x14d/0x170 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982271] [<ffffffff8110bbee>] __alloc_pages_nodemask+0x18e/0x900 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982280] [<ffffffff8131ced8>] ? skb_copy_datagram_iovec+0x68/0x280 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982288] [<ffffffff81050917>] ? local_bh_enable_ip+0x27/0xa0 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982294] [<ffffffff813e6f89>] ? _raw_spin_unlock_bh+0x19/0x20 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982302] [<ffffffff8131329a>] ? release_sock+0xfa/0x120 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982312] [<ffffffff81097b42>] ? futex_wait_setup+0xd2/0xf0 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982320] [<ffffffff81143fc3>] alloc_pages_vma+0xb3/0x190 
Dec 13 06:16:39 mmsc-04 kernel: [6139473.982329] [<ffffffff8112883b>] handle_pte_fault+0x6db/0x970

我想知道这是否有可能是由于某些异常的mmsbox行为造成的?我看到这一行(我不确定它是否表明mmsbox没问题):

Dec 13 06:16:39 mmsc-04 kernel: [6139473.982224] Pid: 32246, comm: mmsbox Not tainted 3.4.62-53.42.amzn1.x86_64 #1

任何帮助/建议都将不胜感激。

1 个答案:

答案 0 :(得分:0)

最有可能的不是mmsbox问题。用户空间进程没有任何内容。根据bug跟踪,它是一个内核的问题。

如果您的内核使用任何非标准内核模块或补丁,那么可能存在此错误的问题。

祝你好运。