C - Linux内核:关闭两个kthreads冻结机器

时间:2015-07-30 13:52:48

标签: c multithreading linux-kernel freeze

编辑:我解决了这个问题。我明天再次上班时会立即添加自己的答案/解决方案。

我正在为Linux内核3.16.x开发内核模块。我的模块应该接收和发送以太网帧,所以我创建了两个线程。一个用于接收部分,一个用于发送部分。它工作正常。

当我尝试关闭模块的设备文件并将其卸载时,会出现我的问题。确切地说,它在尝试杀死我的线程时发生。机器(我在虚拟机上测试,使用Ubuntu 14.04)在任何输出之前冻结。但是,当我删除"线程查杀部分"从代码中,它不再冻结。这就是为什么我很确定,问题源于我处理kthreads杀戮的方式。

这是我的两个主题:

TX THREAD:信号量tx_sem已在代码的另一部分中启动。

static int tx_task(void *par)
{
    device->tx_task_running = 1;

    allow_signal(SIGTERM);
    while (!signal_pending(current) && device->tx_task_running) {
        /* wait until there is something to send */
        down_interruptible(&device->tx_sem);

        if (signal_pending(current)) {
            PRINTD("device_TX_task(): Received kill signal\n");
            break;
        }

        /* check if device is still initialized before continuing*/
        if (!device->init_flag) {
            break;
        }
    }
    device->tx_task_running = 0;
    return DEVICE_RET_OK;
}

RX THREAD

static int device_rx_task(void *par)
{
    device->rx_task_running = 1;

    /* task loop */
    allow_signal(SIGTERM);
    while (!signal_pending(current) && device->rx_task_running) {
        rxlen = kernel_recvmsg(device->sock, &msg, 
            (struct kvec *)&iov, 1, DEVICE_PAY_SIZE, 0);

        if (signal_pending(current)) {
            PRINTD("device_rx_task(): Received kill signal\n");
            break;
        }

        if(rxlen < 0) {
            PRINTD("device_RX_task(): Got error when receiving\n");
            break;
        }

        /* check if device is still initialized before continuing*/
        if (!device->init_flag) {
            break;
        }
    }
    device->rx_task_running = 0;
    return DEVICE_RET_OK;
}

这些人一直跑到我试图关闭我的设备。关闭内核模块时,会调用此函数,这就是它崩溃的时候。例如,如果我评论&#34; send_sig&#34;功能出来,它不会崩溃。当我尝试手动杀死线程时它也会崩溃:

int Device_DevTerm(int dev)
{
    device->init_flag = 0;

    send_sig(SIGTERM, device->rx_thread, 0);
    send_sig(SIGTERM, device->tx_thread, 0);
    device->rx_task_running = 0;
    device->tx_task_running = 0;

    return DEVICE_RET_OK;
}
为了找到问题,我用Google搜索并搜索了很长时间,但到目前为止我还没有成功。由于我已经花了很多时间来解决这个问题,所以我决定问你们。

我在这里做错了什么?

P.S。我不觉得我曾经在这里发帖,我只是读了很多。我希望我的问题清楚简明。可能不是。

1 个答案:

答案 0 :(得分:0)

所以,好像我发现了我的问题。

为kernel_recvmsg()函数设置msghdr时,我常常这样做:

struct sockaddr_in client;

MEM_SET(&client, 0x00, sizeof(struct sockaddr_in));

/* setup receive parameter */
msg.msg_name = &client;
msg.msg_namelen = sizeof(struct sockaddr_in);
msg.msg_control = NULL;
msg.msg_controllen = 0;
msg.msg_iov = &iov;
msg.msg_iovlen = 1;

现在我将例程更改为:

struct sockaddr_in client[3];

MEM_SET(&client[0], 0x00, 3 *sizeof(struct sockaddr_in));

/* setup receive parameter */
msg.msg_name = &client[1];
msg.msg_namelen = sizeof(struct sockaddr_in);
msg.msg_control = NULL;
msg.msg_controllen = 0;
msg.msg_iov = &iov;
msg.msg_iovlen = 1;

有了它,它不再崩溃。然后我在代码库中找到了以下注释:

/*
 * NOTE:
 * use three times the size of struct sockaddr_in as workaround
 * for a possible kernel bug which has been seen on a Ubuntu 64bit
 * system
 * after the call of kernel_recvmsg 2 bytes behind the structure
 * client had been corrupted on the stack
 */

我不确定这是多么真实,以及这是否包含我的整个问题,但它似乎解决了这个问题。