使用Netlink在内核空间和用户空间之间进行通信的msghdr行为

时间:2017-01-05 17:08:43

标签: c linux linux-kernel netlink userspace

我目前正在为学校项目开发Linux内核模块,该模块涉及将内核哈希表实现暴露给用户空间。

为实现这一目标,我还创建了一个用户空间API,通过Netlink套接字与LKM进行通信。

我现在已经有了它的工作,但我碰到了一个让我很困惑的撞击,我真的无法绕过头脑。在阅读了所有文档之后,这些文档并没有帮助我理解这个问题,并且“走下了兔子洞”#34;通过Netlink的源代码查看,我想我在这里问这个问题,看看是否有人知道这是什么,为什么会发生这种情况。

因此,为了隔离问题,我创建了一个小型测试程序,它运行通用的Netlink用户空间和内核空间通信示例。通过这个,我将展示用户空间程序的3个小变体,它们都有不同的行为,这就是我想知道的行为。

首先是内核模块,对于所有3种变体都是相同的:

#include <linux/module.h>
#include <net/sock.h> 
#include <linux/netlink.h>
#include <linux/skbuff.h> 
#define NETLINK_USER 31

struct sock *nl_sk = NULL;

static void hello_nl_recv_msg(struct sk_buff *skb){

    struct nlmsghdr *nlh;
    int pid;
    struct sk_buff *skb_out;
    int msg_size;
    char *msg = "Hello from kernel";
    int res;

    printk(KERN_INFO "Entering: %s\n", __FUNCTION__);

    msg_size = strlen(msg);

    nlh = (struct nlmsghdr *)skb->data;
    printk(KERN_INFO "Netlink received msg payload:%s\n", (char *)nlmsg_data(nlh));
    pid = nlh->nlmsg_pid; //pid of sending process

    skb_out = nlmsg_new(msg_size, 0);
    if (!skb_out) {
        printk(KERN_ERR "Failed to allocate new skb\n");
        return;
    }

    nlh = nlmsg_put(skb_out, 0, 0, NLMSG_DONE, msg_size, 0);
    NETLINK_CB(skb_out).dst_group = 0; // not in mcast group 
    strncpy(nlmsg_data(nlh), msg, msg_size);

    res = nlmsg_unicast(nl_sk, skb_out, pid);
    if (res < 0)
        printk(KERN_INFO "Error while sending bak to user\n");
}

static int __init hello_init(void){

    struct netlink_kernel_cfg cfg = {
        .input = hello_nl_recv_msg,
    };
    printk(KERN_INFO "Loading kernel module\n");
    nl_sk = netlink_kernel_create(&init_net, NETLINK_USER, &cfg);
    if (!nl_sk) {
        printk(KERN_ALERT "Error creating socket.\n");
        return -10;
    }

    return 0;
}

static void __exit hello_exit(void){

    printk(KERN_INFO "exiting hello module\n");
    netlink_kernel_release(nl_sk);
}

module_init(hello_init); module_exit(hello_exit);

MODULE_LICENSE("GPL");

然后是用户空间计划:

#include <sys/socket.h>
#include <linux/netlink.h>
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <string.h>

#define NETLINK_USER 31

#define MAX_PAYLOAD 1024 /* maximum payload size*/

struct msghdr msg;

int main(){
    struct sockaddr_nl src_addr, dest_addr;
    struct nlmsghdr *nlh = NULL;
    struct iovec iov;
    int sock_fd;
    sock_fd = socket(PF_NETLINK, SOCK_RAW, NETLINK_USER);
    if (sock_fd < 0)
        return -1;

    memset(&src_addr, 0, sizeof(src_addr));
    src_addr.nl_family = AF_NETLINK;
    src_addr.nl_pid = getpid(); /* self pid */

    bind(sock_fd, (struct sockaddr *)&src_addr, sizeof(src_addr));

    memset(&dest_addr, 0, sizeof(dest_addr));
    memset(&dest_addr, 0, sizeof(dest_addr));
    dest_addr.nl_family = AF_NETLINK;
    dest_addr.nl_pid = 0; /* For Linux Kernel */
    dest_addr.nl_groups = 0; /* unicast */

    nlh = (struct nlmsghdr *)malloc(NLMSG_SPACE(MAX_PAYLOAD));
    memset(nlh, 0, NLMSG_SPACE(MAX_PAYLOAD));
    nlh->nlmsg_len = NLMSG_SPACE(MAX_PAYLOAD);
    nlh->nlmsg_pid = getpid();
    nlh->nlmsg_flags = 0;

    strcpy(NLMSG_DATA(nlh), "Hello");

    iov.iov_base = (void *)nlh;
    iov.iov_len = nlh->nlmsg_len;
    msg.msg_name = (void *)&dest_addr;
    msg.msg_namelen = sizeof(dest_addr);
    msg.msg_iov = &iov;
    msg.msg_iovlen = 1;

    printf("Sending message to kernel\n");
    sendmsg(sock_fd, &msg, 0);
    printf("Waiting for message from kernel\n");

    /* Read message from kernel */
    recvmsg(sock_fd, &msg, 0);
    printf("Received message payload: %s\n", (char*)NLMSG_DATA(nlh));
    close(sock_fd);
    return 0;
}

现在如果我运行这个,一切都很好,它给了我控制台输出:

Sending message to kernel
Waiting for message from kernel
Received message payload: Hello from kernel

和dmesg的内核日志输出:

[ 3160.679609] exiting hello module
[ 3165.140816] Loading kernel module
[ 3169.678258] Entering: hello_nl_recv_msg
[ 3169.678260] Netlink received msg payload:Hello

但是对于这个项目,我们使用调用API的多线程应用程序,所以我想尝试给每个调用线程一个自己的Netlink套接字。要做到这一点,我必须做

struct msghdr msg;

进入本地声明的变量。

出现问题

当我把它移到主要功能中时,事情立即崩溃了。这就是内核甚至没有进入Netlink回调函数的方式,所以我猜用户空间程序甚至无法写入它,但它仍然从sendmsg()函数返回正确的写入字节数。

这是在本地声明msghdr时输出到控制台的内容:

Sending message to kernel
Waiting for message from kernel

然后它挂起,需要进行SIGINT,并且内核日志不会显示有关LKM接收任何数据的任何信息。

所以我开始想知道它是否会在本地声明时发生寻址错误,所以为了尝试它我将msghdr转换为本地范围内的动态分配指针,你知道它是什么,它有效! 它提供了与原始示例相同的控制台和内核日志输出。

Soooo ,我的实际问题实际上是出于教育目的,并且理解为什么它会以这种方式表现。

为什么全局声明的变量有效,而本地声明的变量不起作用?

此外,为什么本地声明的,动态分配的指针有效?

我在这里错过了一些基本的东西吗?

TL; DR:

为什么在用户空间程序中本地声明msghdr结构不起作用,而全局声明或本地动态指针呢?

1 个答案:

答案 0 :(得分:2)

也许当它在堆栈上时,它的内存不会被归零,你在某个领域有垃圾。