CPU内核卡在kthread中,位于自定义驱动程序中

时间:2017-03-20 10:55:51

标签: linux-kernel

当我在内核thead中修改具有deadloop的ko时,kthread在cpu核心上运行,并且核心不能再运行任何其他进程。并且NMI看门狗触发次数更多:" NMI看门狗:BUG:软锁定 - CPU#0卡住22秒! [普拉迪普:1403]。"

为什么?

ko代码是(我从网上复制的代码可能有错误,而ko不能是rmmod(是的,我知道)。):

#include<linux/init.h>
#include<linux/module.h>
#include<linux/kernel.h>
#include<linux/kthread.h>
#include<linux/sched.h>

struct task_struct *task;
int data;
int ret;

void zg___aaa(void)
{
    int a=0;
    while (a<1000)
        ++a;

    return;
}

int zg___thread_function(void *data)
{
  int var;
  var = 10;
  printk(KERN_INFO "IN THREAD FUNCTION");

  while(1) {
        zg___aaa();
  }

  return var;   
}

static int kernel_init(void)
{
   data = 20;
   printk(KERN_INFO"--------------------------------------------");

   task = kthread_run(&zg___thread_function,(void *)&data,"pradeep");
   printk(KERN_INFO"Kernel Thread : %s\n",task->comm);

   return 0;
}

static void kernel_exit(void)
{
   kthread_stop(task);
}

module_init(kernel_init);
module_exit(kernel_exit);
MODULE_AUTHOR("SHRQ");
MODULE_LICENSE("GPL");

内核配置文件太大而无法登顶我只能放一些相关的项目:

~/build-linux$ cat ./.config | grep PREEMPT
CONFIG_PREEMPT_NOTIFIERS=y
# CONFIG_PREEMPT_NONE is not set
CONFIG_PREEMPT_VOLUNTARY=y
# CONFIG_PREEMPT is not set

我将deadloop移动到kernel_init中,与之前一样。 和来自内核的错误日志:

[ 4463.800938] NMI watchdog: BUG: soft lockup - CPU#0 stuck for 23s! [insmod:1605]
[ 4463.800943] Modules linked in: testko(OE+) xt_CHECKSUM iptable_mangle  .......
[ 4463.800986] CPU: 0 PID: 1605 Comm: insmod Tainted: G           OEL  4.11.0-rc2+ #14
[ 4463.800987] Hardware name: Hewlett-Packard  /304Bh, BIOS 786H1 v01.13 07/14/2011
[ 4463.800988] task: ffff89c378773800 task.stack: ffffb18883264000
[ 4463.800992] RIP: 0010:kernel_init+0x2f/0x40 [testko]
[ 4463.800993] RSP: 0018:ffffb18883267cc8 EFLAGS: 00000286 ORIG_RAX: ffffffffffffff10
[ 4463.800994] RAX: 0000000000000012 RBX: ffffffffc06d6030 RCX: 0000000000000006
[ 4463.800995] RDX: 0000000000000000 RSI: 0000000000000086 RDI: ffff89c39bc0e0a0
[ 4463.800995] RBP: ffffb18883267cc8 R08: 0000000000000000 R09: 000000000000030f
[ 4463.800996] R10: 0000000000000004 R11: 0000000000000000 R12: ffff89c3837038c0
[ 4463.800996] R13: 0000000000000000 R14: ffff89c37862e5a0 R15: ffffb18883267eb0
[ 4463.800997] FS:  00007feb6e1c45c0(0000) GS:ffff89c39bc00000(0000) knlGS:0000000000000000
[ 4463.800998] CS:  0010 DS: 0000 ES: 0000 CR0: 0000000080050033
[ 4463.800999] CR2: 00007feb6d717450 CR3: 000000020edc0000 CR4: 00000000000006f0
[ 4463.801000] Call Trace:
[ 4463.801006]  do_one_initcall+0x51/0x1b0
[ 4463.801009]  ? __vunmap+0x85/0xd0
[ 4463.801013]  ? kmem_cache_alloc_trace+0x15c/0x1c0
[ 4463.801014]  ? kfree+0x13b/0x180
[ 4463.801016]  do_init_module+0x60/0x1fa
[ 4463.801019]  load_module+0x22dd/0x2870
[ 4463.801021]  ? __symbol_put+0x40/0x40
[ 4463.801022]  SYSC_finit_module+0x96/0xd0
[ 4463.801024]  SyS_finit_module+0xe/0x10
[ 4463.801027]  entry_SYSCALL_64_fastpath+0x1a/0xa9
[ 4463.801028] RIP: 0033:0x7feb6d6aebf9
[ 4463.801028] RSP: 002b:00007ffca2026c48 EFLAGS: 00000246 ORIG_RAX: 0000000000000139
[ 4463.801030] RAX: ffffffffffffffda RBX: 0000000000000003 RCX: 00007feb6d6aebf9
[ 4463.801030] RDX: 0000000000000000 RSI: 0000558f2ec2c186 RDI: 0000000000000003
[ 4463.801031] RBP: 0000000000000086 R08: 0000000000000000 R09: 00007feb6d96fe80
[ 4463.801031] R10: 0000000000000003 R11: 0000000000000246 R12: 0000558f2fda0130
[ 4463.801032] R13: 0000000000000001 R14: 0000000000000000 R15: 00007ffca2025acc

...

我的问题,为什么在内核模式下死循环时,被抢占的内核调度程序无法抢占deadloop代码并切换到其他线程?当deadloop在用户模式下运行时,调度程序功能正常。

1 个答案:

答案 0 :(得分:3)

首先......

...使用kthread_stop不会神奇地停止你的线程。如果你考虑一下,你的内核线程没有任何退出点,所以它永远不会停止。

为了正确停止您的主题,您可以使用kthread_should_stop。我在这里添加了一个例子,显示了这一点。

核心卡住

现在,关于你描述的问题,核心卡在哪里。我的猜测是你运行的是一个不可抢占的内核。运行内核代码时,不可抢占的内核无法进行上下文切换,这可以解释您所描述的内容。

有关内核抢占的更多信息,当然wikipedia对此有所了解。

如果你在内核线程中禁用抢占,你将卡住你的核心并得到相同的“NMI看门狗:BUG:软锁定”警告。这可以用以下方法测试:

int thread_fn(void *arg)
{
        preempt_disable();
        while (!kthread_should_stop())
                busyloop();
        preempt_enable();
        return 0;
}

根据您的配置进行更新:

您的内核配置显示您的内核已启用自愿抢占,但它不是完全可抢占的:

CONFIG_PREEMPT_VOLUNTARY=y
# CONFIG_PREEMPT is not set

当配置显示CONFIG_PREEMPT is not set时,表示禁用此选项。与您的内核不完全抢占的内核,只是无法重新安排到另一个线程,因为它已明确配置为删除该功能。

您可以使用cond_resched()明确重新安排线程,也可以使用kernel_freezable_should_stop。像这样:

int thread_fn(void *arg)
{
        bool was_frozen;

        while (!kthread_freezable_should_stop(&was_frozen))
                busyloop();
        return 0;
}

如何检查可抢占的配置

$ zcat /proc/config.gz | grep CONFIG_PREEMPT=
CONFIG_PREEMPT=y

我的测试驱动程序

#include <linux/init.h>
#include <linux/module.h>
#include <linux/kernel.h>
#include <linux/kthread.h>
#include <linux/sched.h>

struct task_struct *task;

void busyloop(void)
{
    int a = 0;
    while (a < 1000)
        ++a;
}

int thread_fn(void *arg)
{
    bool was_frozen;

    while (!kthread_freezable_should_stop(&was_frozen))
        busyloop();
    return 0;
}

static int kernel_init(void)
{
    task = kthread_run(&thread_fn, NULL, "test");
    return 0;
}

static void kernel_exit(void)
{
    kthread_stop(task);
}

MODULE_LICENSE("GPL"); 
module_init(kernel_init);
module_exit(kernel_exit);