写入内核模块时的内核非法指令

时间:2013-05-16 20:03:56

标签: c linux-kernel embedded-linux fpga

我正在制作FPGA片上系统系统,我在运行时使用内核模块更改硬件配置。他们的系统使用Linux 2.6和LEON3 CPU(SPARC)。一些比特文件工作正常,但对于某些比特文件,我得到“内核非法指令”或“无法在虚拟地址x处理内核分页请求”。我很确定我的硬件是正确的,因为我用另一种方法测试它,而我正在改变的硬件与CPU无关。我猜这是一个软件/内核模块错误。这是在我第14次进入内核模块的write方法之后发生的。我不知道从哪里开始调试。任何帮助将不胜感激。

# cat x > /dev/y
Unable to handle kernel paging request at virtual address 00001000
tsk->{mm,active_mm}->context = 00000045
tsk->{mm,active_mm}->pgd = fc013400
              \|/ ____ \|/
              "@'/ ,. \`@"
              /_| \__/ |_\
                 \__U_/
cat(86): Oops [#1]
PSR: f30000c7 PC: f0089e90 NPC: f0089e94 Y: 00000000    Not tainted
PC: <vfs_write+0xb8/0x148>
%G: 80080000 00001000  00000001 fd000100  00000dae f09c4370  fbca0000 0000fffb
%O: 00001000 00000003  00001000 fe60e5dc  fe60e430 fe60e420  fbca1e80 f0089e80
RPC: <vfs_write+0xa8/0x148>
%L: fbdcad40 00000000  fbca1e78 00000004  fbc0e940 00000000  fbdd2000 f0035784
%I: 00001000 efe07b50  00001000 fbca1f40  00000000 00000000  000007af 000007af
Disabling lock debugging due to kernel taint
Caller[000007af]: 0x7af
Instruction DUMP: d204200c  f602600c  c416e072 <84088001> 03000010  80a08001  02
800018  b2102002  c404201c
Killed
#

内核模块写入方法:

ssize_t icap_write( struct file *filp, char *buf, size_t count, loff_t *f_pos) {
unsigned long words, data, *pdata, mem_loc_temp;

pdata = (unsigned long *)buf;
mem_loc_temp = icap_mem_loc;//reset mem_loc_temp

while((pdata < (buf + count)) && (mem_loc_temp < icap_mem_loc+4096)){
        leon_store_reg(mem_loc_temp,*pdata);
        pdata++;
        mem_loc_temp+=4;
    }
}

我认为这是我的问题。 pdata超出界限。是否可行修复将其修改为: --------------更新代码-------------

unsigned long *pdata;
static int __init icap_init(void) {
...
pdata = (unsigned long *)kmalloc(mem_size*sizeof(char), GFP_KERNEL);
...
}

ssize_t icap_write( struct file *filp, const char *buf,
                  size_t count, loff_t *f_pos) {

int i, cycles, spins;
ssize_t result;

if(count%4 != 0){
    printk(KERN_INFO "ERROR: count = %d is not a multiple of 4. count mod 4 = %u\n Assuming 0 padding for last word. Configuration may not have completed as expected.",count, count%4);
    //return count;
}

result = copy_from_user(pdata, buf, count);
if (result) {
    printk(KERN_INFO "copy_from_user failed, returned: %d\n.", result);
    return -EINVAL; 
}
spins = 0;
while((leon_load_reg(ctrl_mem_loc+8) & 0x10) == 0){//check done
    spins++;//spin on NOT done
}
if (spins > 0)
    printk(KERN_INFO "%d spins\n", spins);

leon_store_reg(ctrl_mem_loc+8, 0);//deassert start

if(count == 4096){
    cycles=min((unsigned long)1024, (unsigned long)mem_size/4);
}else if((count > 0) && (count < 4096)){
    cycles=min(((unsigned long)count+3)/4, (unsigned long)mem_size/4);
}else{
    printk(KERN_INFO "ERROR: count > 4096\n");
    cycles = 0;
}

for(i = 0; i < cycles; i++){
    leon_store_reg(icap_mem_loc+4*i, pdata[i]);
}

leon_store_reg(ctrl_mem_loc, cycles);//set number of samples
leon_store_reg(ctrl_mem_loc+8, 0x1);//set start high

return count;
}

1 个答案:

答案 0 :(得分:1)

您可能需要在此处添加一些代码,以便我们更好地为您提供帮助。

我的第一个猜测是你的代码中有一个数组覆盖,当你点击第14个条目时,它会遇到系统需要的东西并导致异常。如果可能的话,在程序写出时跟踪程序,看它是否正在写入它应该的位置。不同的文件将位于内存中的不同位置,如果这些区域不是系统关键的,那么它可以解释为什么它们不会崩溃而且这个区域会崩溃。

崩溃转储中有一件有趣的事情:

Unable to handle kernel paging request at virtual address 00001000

这是4096的十进制 - 与while循环中的偏移量相同。所以也许会有一些事情发生,但是你的代码似乎没有修复它,并且可能会使它变得更糟,因为在你的while循环中有两个条件需要注意。

更新代码

如果基准指针未pdata对齐,则将unsigned long *转换为long可能不安全。不确定您的系统是否允许未对齐的内存访问,所以要小心。

icap_mem_loc是未知类型,但似乎是一个整数值?如果是这样,处理整数值和指针就要求将来遇到麻烦。

您正在将无符号长指针与while循环中的unsigned char指针进行比较 - 可能是安全的,但请注意这里的指针算法。

您是否在启用警告的情况下编译此代码?如果没有,请这样做,因为我确信它会对上述问题大喊大叫......

如果icap_mem_loc为NULL或0,会发生什么?如果这是一个错误条件,你需要处理它 - 你的页面请求有点推断这是一个糟糕的情况,你没有任何ASSERT或条件来处理这个。

最后,mem_loc_temp+=4; 4 - 您确定long在您的系统上的字节大小为4个字节。应该是sizeof()'d或更好,longptr++委托代替摆脱歧义。

不要试图在这里攻击你,但指出我看到的每一个潜在的失败点,以便我们能够解决这个问题。