子进程不仅仅为SIGBUS错误生成核心而且变成了Zombie进程

时间:2017-01-30 10:36:35

标签: linux core child-process pci-bus sigbus

我的子进程正在尝试访问PCI地址空间。它大部分时间都可以正常工作。

但是,有时孩子的过程会变成僵尸状态。 dmesg日志显示以下总线错误。

[  501.134156] Caused by (from MCSR=10008): Bus - Read Data Bus Error
[  501.134169] Oops: Machine check, sig: 7 [#1]

在这种情况下没有生成核心文件。

[Linux:/]$ ps -axl | grep tes1
4     0  6805 32495  20   0      0     0 exit   Zl   ?  0:05 [test1] <defunct>
[Linux:/]$ 

子进程为SIGSEGV错误生成核心。所以我认为它与permission / ulimit设置无关。

有人可以帮助我理解为什么在这种情况下不会生成核心吗?

Child Process:
--------------

[Linux:/]$ cat /proc/6805/status
Name:   test1
State:  Z (zombie)
Tgid:   6805
Pid:    6805
PPid:   32495
TracerPid:  0
Uid:    0   0   0   0
Gid:    0   0   0   0
FDSize: 0
Groups: 
Threads:    2
SigQ:   18/13007
SigPnd: 0000000002000000
ShdPnd: 0000000000000000
SigBlk: 0000000000000000
SigIgn: 0000000000001006
SigCgt: 0000000182000200
CapInh: 0000000000000000
CapPrm: 0000001fffffffff
CapEff: 0000001fffffffff
CapBnd: 0000001fffffffff
Seccomp:    0
Cpus_allowed:   3
Cpus_allowed_list:  0-1
voluntary_ctxt_switches:    8998
nonvoluntary_ctxt_switches: 857

   Stack:
   -------

[Linux:/]$ cat /proc/6805/stack
[<00000000>]    (nil)
[<c0008640>] __switch_to+0xc0/0x160
[<c004b4f4>] do_exit+0x5d4/0xa70
[<c000c694>] die+0x224/0x310
[<c000ce44>] machine_check_exception+0x124/0x1e0
[<c00123bc>] ret_from_mcheck_exc+0x0/0x14c
[Linux:/]$ 


Parent Process:
---------------
[Linux:/]$ cat /proc/32495/status
Name:   test
State:  S (sleeping)
Tgid:   32495
Pid:    32495
PPid:   21911
TracerPid:  0
Uid:    0   0   0   0
Gid:    0   0   0   0
FDSize: 256
Groups: 
VmPeak:     4820 kB
VmSize:     4820 kB
VmLck:         0 kB
VmPin:         0 kB
VmHWM:      2548 kB
VmRSS:      2548 kB
VmData:     1284 kB
VmStk:       132 kB
VmExe:       900 kB
VmLib:      1976 kB
VmPTE:        24 kB
VmSwap:        0 kB
Threads:    1
SigQ:   19/13007
SigPnd: 0000000000000000
ShdPnd: 0000000000000000
SigBlk: 0000000000010000
SigIgn: 0000000000001006
SigCgt: 0000000043816ef9
CapInh: 0000000000000000
CapPrm: 0000001fffffffff
CapEff: 0000001fffffffff
CapBnd: 0000001fffffffff
Seccomp:    0
Cpus_allowed:   3
Cpus_allowed_list:  0-1
voluntary_ctxt_switches:    274
nonvoluntary_ctxt_switches: 145
[Linux:/]$ 

1 个答案:

答案 0 :(得分:0)

据我所知,mmaped的PCI硬件没有响应。因此,只有内核才能处理错误。

错误不会传播到用户级别,因为这不是软件错误。因此,我们没有获得核心转储(内核或用户空间),因为它不是软件故障。

内核中的机器检查异常处理程序告诉硬件故障是什么,以及哪些地址/数据是相关的(取决于原因) - 需要进一步从硬件角度进行调查。