我正在制作FPGA片上系统系统,我在运行时使用内核模块更改硬件配置。他们的系统使用Linux 2.6和LEON3 CPU(SPARC)。一些比特文件工作正常,但对于某些比特文件,我得到“内核非法指令”或“无法在虚拟地址x处理内核分页请求”。我很确定我的硬件是正确的,因为我用另一种方法测试它,而我正在改变的硬件与CPU无关。我猜这是一个软件/内核模块错误。这是在我第14次进入内核模块的write方法之后发生的。我不知道从哪里开始调试。任何帮助将不胜感激。
# cat x > /dev/y
Unable to handle kernel paging request at virtual address 00001000
tsk->{mm,active_mm}->context = 00000045
tsk->{mm,active_mm}->pgd = fc013400
\|/ ____ \|/
"@'/ ,. \`@"
/_| \__/ |_\
\__U_/
cat(86): Oops [#1]
PSR: f30000c7 PC: f0089e90 NPC: f0089e94 Y: 00000000 Not tainted
PC: <vfs_write+0xb8/0x148>
%G: 80080000 00001000 00000001 fd000100 00000dae f09c4370 fbca0000 0000fffb
%O: 00001000 00000003 00001000 fe60e5dc fe60e430 fe60e420 fbca1e80 f0089e80
RPC: <vfs_write+0xa8/0x148>
%L: fbdcad40 00000000 fbca1e78 00000004 fbc0e940 00000000 fbdd2000 f0035784
%I: 00001000 efe07b50 00001000 fbca1f40 00000000 00000000 000007af 000007af
Disabling lock debugging due to kernel taint
Caller[000007af]: 0x7af
Instruction DUMP: d204200c f602600c c416e072 <84088001> 03000010 80a08001 02
800018 b2102002 c404201c
Killed
#
内核模块写入方法:
ssize_t icap_write( struct file *filp, char *buf, size_t count, loff_t *f_pos) {
unsigned long words, data, *pdata, mem_loc_temp;
pdata = (unsigned long *)buf;
mem_loc_temp = icap_mem_loc;//reset mem_loc_temp
while((pdata < (buf + count)) && (mem_loc_temp < icap_mem_loc+4096)){
leon_store_reg(mem_loc_temp,*pdata);
pdata++;
mem_loc_temp+=4;
}
}
我认为这是我的问题。 pdata超出界限。是否可行修复将其修改为: --------------更新代码-------------
unsigned long *pdata;
static int __init icap_init(void) {
...
pdata = (unsigned long *)kmalloc(mem_size*sizeof(char), GFP_KERNEL);
...
}
ssize_t icap_write( struct file *filp, const char *buf,
size_t count, loff_t *f_pos) {
int i, cycles, spins;
ssize_t result;
if(count%4 != 0){
printk(KERN_INFO "ERROR: count = %d is not a multiple of 4. count mod 4 = %u\n Assuming 0 padding for last word. Configuration may not have completed as expected.",count, count%4);
//return count;
}
result = copy_from_user(pdata, buf, count);
if (result) {
printk(KERN_INFO "copy_from_user failed, returned: %d\n.", result);
return -EINVAL;
}
spins = 0;
while((leon_load_reg(ctrl_mem_loc+8) & 0x10) == 0){//check done
spins++;//spin on NOT done
}
if (spins > 0)
printk(KERN_INFO "%d spins\n", spins);
leon_store_reg(ctrl_mem_loc+8, 0);//deassert start
if(count == 4096){
cycles=min((unsigned long)1024, (unsigned long)mem_size/4);
}else if((count > 0) && (count < 4096)){
cycles=min(((unsigned long)count+3)/4, (unsigned long)mem_size/4);
}else{
printk(KERN_INFO "ERROR: count > 4096\n");
cycles = 0;
}
for(i = 0; i < cycles; i++){
leon_store_reg(icap_mem_loc+4*i, pdata[i]);
}
leon_store_reg(ctrl_mem_loc, cycles);//set number of samples
leon_store_reg(ctrl_mem_loc+8, 0x1);//set start high
return count;
}
答案 0 :(得分:1)
您可能需要在此处添加一些代码,以便我们更好地为您提供帮助。
我的第一个猜测是你的代码中有一个数组覆盖,当你点击第14个条目时,它会遇到系统需要的东西并导致异常。如果可能的话,在程序写出时跟踪程序,看它是否正在写入它应该的位置。不同的文件将位于内存中的不同位置,如果这些区域不是系统关键的,那么它可以解释为什么它们不会崩溃而且这个区域会崩溃。
崩溃转储中有一件有趣的事情:
Unable to handle kernel paging request at virtual address 00001000
这是4096的十进制 - 与while循环中的偏移量相同。所以也许会有一些事情发生,但是你的代码似乎没有修复它,并且可能会使它变得更糟,因为在你的while循环中有两个条件需要注意。
更新代码
如果基准指针未pdata
对齐,则将unsigned long *
转换为long
可能不安全。不确定您的系统是否允许未对齐的内存访问,所以要小心。
icap_mem_loc
是未知类型,但似乎是一个整数值?如果是这样,处理整数值和指针就要求将来遇到麻烦。
您正在将无符号长指针与while循环中的unsigned char指针进行比较 - 可能是安全的,但请注意这里的指针算法。
您是否在启用警告的情况下编译此代码?如果没有,请这样做,因为我确信它会对上述问题大喊大叫......
如果icap_mem_loc
为NULL或0,会发生什么?如果这是一个错误条件,你需要处理它 - 你的页面请求有点推断这是一个糟糕的情况,你没有任何ASSERT
或条件来处理这个。
最后,mem_loc_temp+=4;
4
- 您确定long
在您的系统上的字节大小为4
个字节。应该是sizeof()'d或更好,longptr++
委托代替摆脱歧义。
不要试图在这里攻击你,但指出我看到的每一个潜在的失败点,以便我们能够解决这个问题。