如何解释内核中的地址oops

时间:2013-05-24 09:21:45

标签: linux kernel linux-device-driver

我在我编写的linux设备驱动程序中有一个内核oops。我想确定哪一行负责oops。我有以下输出,但我不知道如何解释它。

这是否意味着我的代码在write_func + 0x63处的指令处崩溃了?如何将EIP中的值与我自己的函数联系起来?反斜杠后的值是什么意思?

[10991.880354] BUG: unable to handle kernel NULL pointer dereference at   (null)
[10991.880359] IP: [<c06969d4>] iret_exc+0x7d0/0xa59
[10991.880365] *pdpt = 000000002258a001 *pde = 0000000000000000
[10991.880368] Oops: 0002 [#1] PREEMPT SMP
[10991.880371] last sysfs file: /sys/devices/platform/coretemp.3/temp1_input
[10991.880374] Modules linked in: nfs lockd fscache nfs_acl auth_rpcgss sunrpc   hdrdmod(F) coretemp(F) af_packet fuse edd cpufreq_conservative cpufreq_userspace cpufreq_powersave acpi_cpufreq mperf microcode dm_mod ppdev sg og3 ghes i2c_i801 igb hed pcspkr iTCO_wdt dca iTCO_vendor_support parport_pc floppy parport ext4 jbd2 crc16 i915 drm_kms_helper drm i2c_algo_bit video button fan processor thermal thermal_sys [last unloaded: preloadtrace]
[10991.880400]
[10991.880402] Pid: 4487, comm: python Tainted: GF           2.6.37.1-1.2-desktop #1 To be filled by O.E.M. To be filled by O.E.M./To be filled by O.E.M.
[10991.880408] EIP: 0060:[<c06969d4>] EFLAGS: 00210246 CPU: 0
[10991.880411] EIP is at iret_exc+0x7d0/0xa59
[10991.880413] EAX: 00000000 EBX: 00000000 ECX: 0000018c EDX: b7837000
[10991.880415] ESI: b7837000 EDI: 00000000 EBP: b7837000 ESP: e2a81ee0
[10991.880417]  DS: 007b ES: 007b FS: 00d8 GS: 0033 SS: 0068
[10991.880420] Process python (pid: 4487, ti=e2a80000 task=df940530 task.ti=e2a80000)
[10991.880422] Stack:
[10991.880423]  00000000 0000018c 00000000 0000018c e5e903dc e4616353 00000009 df99735c
[10991.880428]  df900a7c df900a7c b7837000 df80ad80 df99735c 00000009 e46182a4 e2a81f70
[10991.880433]  e28cd800 e09fc840 e28cd800 fffffffb e09fc888 c03718c1 e4618290 0000018c
[10991.880438] Call Trace:
[10991.882006] Inexact backtrace:
[10991.882006]
[10991.882012]  [<e4616353>] ? write_func+0x63/0x160 [mymod]
[10991.882017]  [<c03718c1>] ? proc_file_write+0x71/0xa0
[10991.882020]  [<c0371850>] ? proc_file_write+0x0/0xa0
[10991.882023]  [<c036c971>] ? proc_reg_write+0x61/0x90
[10991.882026]  [<c036c910>] ? proc_reg_write+0x0/0x90
[10991.882031]  [<c0323060>] ? vfs_write+0xa0/0x160
[10991.882034]  [<c03243c6>] ? fget_light+0x96/0xb0
[10991.882037]  [<c0323331>] ? sys_write+0x41/0x70
[10991.882040]  [<c0202f0c>] ? sysenter_do_call+0x12/0x22
[10991.882044]  [<c069007b>] ? _lock_kernel+0xab/0x180
[10991.882046] Code: f3 aa 58 59 e9 5a f9 d7 ff 8d 0c 88 e9 12 fa d7 ff 01 d9 e9 7b fa d7 ff 8d 0c 8b e9 73 fa d7 ff 01 d9 eb 03 8d 0c 8b 51 50 31 c0 <f3> aa 58 59 e9 cf fa d7 ff 01 d9 e9 38 fb d7 ff 8d 0c 8b e9 30
[10991.882069] EIP: [<c06969d4>] iret_exc+0x7d0/0xa59 SS:ESP 0068:e2a81ee0
[10991.882072] CR2: 0000000000000000 
[10991.889660] ---[ end trace 26fe339b54b2ea3e ]---

1 个答案:

答案 0 :(得分:26)

您需要的所有信息都在那里:

[10991.880354] BUG: unable to handle kernel NULL pointer dereference at   (null)

这就是原因。

[10991.880359] IP: [<c06969d4>] iret_exc+0x7d0/0xa59

这是故障时的指令指针。我们马上回过头来。

[10991.880365] *pdpt = 000000002258a001 *pde = 0000000000000000

这些是物理页表条目。描述符表和页面描述符条目。当然,后者是NULL,因为它是一个NULL指针。上述值很少有用(仅在需要物理内存映射的情况下)

[10991.880368] Oops: 0002 [#1] PREEMPT SMP

这是oops代码。 PREEMPT SMP向您显示内核是可抢占的,并为SMP而不是UP编译。这对于bug来自某些竞争条件等情况非常重要。

[10991.880371] last sysfs file: /sys/devices/platform/coretemp.3/temp1_input

这不一定是罪魁祸首,但往往是。 sys文件由各种内核模块导出,并且sys文件上的I / O操作通常会导致模块代码执行错误。

[10991.880374] Modules linked in: ... [last unloaded: preloadtrace]

内核不一定知道应该责怪哪个模块,因此它会为您提供所有这些模块。此外,最近卸载的模块很可能没有清理并在内核中留下一些残留物(如某些计时器或回调) - 这是oops或恐慌的经典案例。所以内核也报告了最后一个卸载的。

[10991.880402] Pid: 4487, comm: python Tainted: GF           2.6.37.1-1.2-desktop #1 To be filled by O.E.M. To be filled by O.E.M./To be filled by O.E.M.

如果错误线程是用户模式线程,则获取PID和命令行。 “污点”标志是内核的方式,它说它不是内核错误(内核源是开放的和“纯粹的”。“污点”来自亵渎的非GPL模块,以及其他。

[10991.880408] EIP: 0060:[<c06969d4>] EFLAGS: 00210246 CPU: 0
[10991.880411] EIP is at iret_exc+0x7d0/0xa59

它直接以符号+偏移形式为您提供错误指令指针。斜杠后面的部分是函数的大小。

[10991.880413] EAX: 00000000 EBX: 00000000 ECX: 0000018c EDX: b7837000
[10991.880415] ESI: b7837000 EDI: 00000000 EBP: b7837000 ESP: e2a81ee0
[10991.880417]  DS: 007b ES: 007b FS: 00d8 GS: 0033 SS: 0068

这里显示寄存器。您的NULL可能是EAX。

[10991.880420] Process python (pid: 4487, ti=e2a80000 task=df940530 task.ti=e2a80000)
[10991.880422] Stack:
[10991.880423]  00000000 0000018c 00000000 0000018c e5e903dc e4616353 00000009 df99735c
[10991.880428]  df900a7c df900a7c b7837000 df80ad80 df99735c 00000009 e46182a4 e2a81f70
[10991.880433]  e28cd800 e09fc840 e28cd800 fffffffb e09fc888 c03718c1 e4618290 0000018c

显示堆栈指针附近的区域。内核不知道这些值是什么意思,但它们与显示$ rsp的gdb相同。因此,您需要了解它们是什么。 (例如,c03718c1是一个内核返回地址,很可能 - 所以你可以去/ proc / kallsyms找出它,或者依赖它在跟踪中,就像下一个那样)。这告诉您所有数据都是堆栈框架

现在,因为你有堆栈调用跟踪,你可以把碎片放在一起:

[10991.880423]  00000000 0000018c 00000000 0000018c e5e903dc e4616353 --> back to write_func

[            ]  ..................................................... 00000009 df99735c
[10991.880428]  df900a7c df900a7c b7837000 df80ad80 df99735c 00000009 e46182a4 e2a81f70
[10991.880433]  e28cd800 e09fc840 e28cd800 fffffffb e09fc888 c03718c1  --> back to proc_file_write

[10991.882046] Code: f3 aa 58 59 e9 5a f9 d7 ff 8d 0c 88 e9 12 fa d7 ff 01 d9 e9 7b fa d7 ff 8d 0c 8b e9 73 fa d7 ff 01 d9 eb 03 8d 0c 8b 51 50 31 c0 <f3> aa 58 59 e9 cf fa d7 ff 01 d9 e9 38 fb d7 ff 8d 0c 8b e9 30

再一次,内核不能为你拆卸(它是oopsing,可能非常恐慌,给它一个休息!)。但您可以使用gdb来反汇编这些值。

所以现在你知道一切。实际上,你可以反汇编你自己的模块,并找出write_func中取消引用NULL指针的确切位置。 (你可能将它作为参数传递给某个函数)。