问题的关键在于:用户土地应用程序在运行时遭到破坏的可能性有多大?除了硬件故障。
硬件装备:ARM9(at91sam9xe) NAND Flash for:Linux内核+ FS +用户态应用程序。
我们在ARM9的嵌入式Linux上运行了一个应用程序(at91sam9xe),几个月没有出现任何问题,但突然一个ARM报告无法执行该应用程序..
当它被执行时,它崩溃了以下转储:
pgd = c16b8000
[00000020] *pgd=215a0031, *pte=00000000, *ppte=00000000
Pid: 349, comm: console
CPU: 0 Not tainted (2.6.30.4-uc0 #280)
PC is at 0x4e000
LR is at 0x673e0
pc : [<0004e000>] lr : [<000673e0>] psr: 60000010
sp : bec6a728 ip : bec6acb4 fp : bec6ac9c
r10: 000bd9f8 r9 : 00000000 r8 : 00000000
r7 : 00000000 r6 : bec6acb4 r5 : 00000000 r4 : fbad2084
r3 : ffffffff r2 : bec6acb4 r1 : 00000025 r0 : 0009eab0
Flags: nZCv IRQs on FIQs on Mode USER_32 ISA ARM Segment user
Control: 0005317f Table: 216b8000 DAC: 00000015
[<c02ec3b0>] (show_regs+0x0/0x50) from [<c02f11a8>] (__do_user_fault+0x9c/0xa8)
r5:0000000b r4:c1696360
[<c02f110c>] (__do_user_fault+0x0/0xa8) from [<c02f1344>] (do_page_fault+0x114/0x244)
r7:00010000 r6:c1696360 r5:c15a62e0 r4:c1c5fde0
[<c02f1230>] (do_page_fault+0x0/0x244) from [<c02ea284>] (do_DataAbort+0x3c/0xa0)
[<c02ea248>] (do_DataAbort+0x0/0xa0) from [<c02eae00>] (ret_from_exception+0x0/0x10)
Exception stack(0xc1683fb0 to 0xc1683ff8)
3fa0: 0009eab0 00000025 bec6acb4 ffffffff
3fc0: fbad2084 00000000 bec6acb4 00000000 00000000 00000000 000bd9f8 bec6ac9c
3fe0: bec6acb4 bec6a728 000673e0 0004e000 60000010 ffffffff
我尝试使用addr2line来查看崩溃的位置,但是它引用了crtstuff.c = \ crtstuff.c不是我们应用程序的一部分,它与GCC相关,我认为。
我担心我的可执行文件已损坏,所以我在NAND上的文件上运行了差异并从我的PC上运行文件......存在不应发生的差异。另外,差异几乎都是“0x00”值而不是它们应该包含的值。
我真正想知道的是,除了硬件故障之外,用户应用程序如何被破坏?
原因: NAND闪存总是可写的,所以我们低调的是,有一些巧合写入闪存并且电源耗尽。
解决方案 将我们的FS移动到RAM,我们只将部分NAND分区挂载为只有在需要写东西时才可写。 NAND写保护通过硬件引脚控制,仅在有来自App
的写请求时启用