我目前正在为学校项目开发Linux内核模块,该模块涉及将内核哈希表实现暴露给用户空间。
为实现这一目标,我还创建了一个用户空间API,通过Netlink套接字与LKM进行通信。
我现在已经有了它的工作,但我碰到了一个让我很困惑的撞击,我真的无法绕过头脑。在阅读了所有文档之后,这些文档并没有帮助我理解这个问题,并且“走下了兔子洞”#34;通过Netlink的源代码查看,我想我在这里问这个问题,看看是否有人知道这是什么,为什么会发生这种情况。
因此,为了隔离问题,我创建了一个小型测试程序,它运行通用的Netlink用户空间和内核空间通信示例。通过这个,我将展示用户空间程序的3个小变体,它们都有不同的行为,这就是我想知道的行为。
首先是内核模块,对于所有3种变体都是相同的:
#include <linux/module.h>
#include <net/sock.h>
#include <linux/netlink.h>
#include <linux/skbuff.h>
#define NETLINK_USER 31
struct sock *nl_sk = NULL;
static void hello_nl_recv_msg(struct sk_buff *skb){
struct nlmsghdr *nlh;
int pid;
struct sk_buff *skb_out;
int msg_size;
char *msg = "Hello from kernel";
int res;
printk(KERN_INFO "Entering: %s\n", __FUNCTION__);
msg_size = strlen(msg);
nlh = (struct nlmsghdr *)skb->data;
printk(KERN_INFO "Netlink received msg payload:%s\n", (char *)nlmsg_data(nlh));
pid = nlh->nlmsg_pid; //pid of sending process
skb_out = nlmsg_new(msg_size, 0);
if (!skb_out) {
printk(KERN_ERR "Failed to allocate new skb\n");
return;
}
nlh = nlmsg_put(skb_out, 0, 0, NLMSG_DONE, msg_size, 0);
NETLINK_CB(skb_out).dst_group = 0; // not in mcast group
strncpy(nlmsg_data(nlh), msg, msg_size);
res = nlmsg_unicast(nl_sk, skb_out, pid);
if (res < 0)
printk(KERN_INFO "Error while sending bak to user\n");
}
static int __init hello_init(void){
struct netlink_kernel_cfg cfg = {
.input = hello_nl_recv_msg,
};
printk(KERN_INFO "Loading kernel module\n");
nl_sk = netlink_kernel_create(&init_net, NETLINK_USER, &cfg);
if (!nl_sk) {
printk(KERN_ALERT "Error creating socket.\n");
return -10;
}
return 0;
}
static void __exit hello_exit(void){
printk(KERN_INFO "exiting hello module\n");
netlink_kernel_release(nl_sk);
}
module_init(hello_init); module_exit(hello_exit);
MODULE_LICENSE("GPL");
然后是用户空间计划:
#include <sys/socket.h>
#include <linux/netlink.h>
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
#include <string.h>
#define NETLINK_USER 31
#define MAX_PAYLOAD 1024 /* maximum payload size*/
struct msghdr msg;
int main(){
struct sockaddr_nl src_addr, dest_addr;
struct nlmsghdr *nlh = NULL;
struct iovec iov;
int sock_fd;
sock_fd = socket(PF_NETLINK, SOCK_RAW, NETLINK_USER);
if (sock_fd < 0)
return -1;
memset(&src_addr, 0, sizeof(src_addr));
src_addr.nl_family = AF_NETLINK;
src_addr.nl_pid = getpid(); /* self pid */
bind(sock_fd, (struct sockaddr *)&src_addr, sizeof(src_addr));
memset(&dest_addr, 0, sizeof(dest_addr));
memset(&dest_addr, 0, sizeof(dest_addr));
dest_addr.nl_family = AF_NETLINK;
dest_addr.nl_pid = 0; /* For Linux Kernel */
dest_addr.nl_groups = 0; /* unicast */
nlh = (struct nlmsghdr *)malloc(NLMSG_SPACE(MAX_PAYLOAD));
memset(nlh, 0, NLMSG_SPACE(MAX_PAYLOAD));
nlh->nlmsg_len = NLMSG_SPACE(MAX_PAYLOAD);
nlh->nlmsg_pid = getpid();
nlh->nlmsg_flags = 0;
strcpy(NLMSG_DATA(nlh), "Hello");
iov.iov_base = (void *)nlh;
iov.iov_len = nlh->nlmsg_len;
msg.msg_name = (void *)&dest_addr;
msg.msg_namelen = sizeof(dest_addr);
msg.msg_iov = &iov;
msg.msg_iovlen = 1;
printf("Sending message to kernel\n");
sendmsg(sock_fd, &msg, 0);
printf("Waiting for message from kernel\n");
/* Read message from kernel */
recvmsg(sock_fd, &msg, 0);
printf("Received message payload: %s\n", (char*)NLMSG_DATA(nlh));
close(sock_fd);
return 0;
}
现在如果我运行这个,一切都很好,它给了我控制台输出:
Sending message to kernel
Waiting for message from kernel
Received message payload: Hello from kernel
和dmesg的内核日志输出:
[ 3160.679609] exiting hello module
[ 3165.140816] Loading kernel module
[ 3169.678258] Entering: hello_nl_recv_msg
[ 3169.678260] Netlink received msg payload:Hello
但是对于这个项目,我们使用调用API的多线程应用程序,所以我想尝试给每个调用线程一个自己的Netlink套接字。要做到这一点,我必须做
struct msghdr msg;
进入本地声明的变量。
出现问题
当我把它移到主要功能中时,事情立即崩溃了。这就是内核甚至没有进入Netlink回调函数的方式,所以我猜用户空间程序甚至无法写入它,但它仍然从sendmsg()函数返回正确的写入字节数。
这是在本地声明msghdr时输出到控制台的内容:
Sending message to kernel
Waiting for message from kernel
然后它挂起,需要进行SIGINT,并且内核日志不会显示有关LKM接收任何数据的任何信息。
所以我开始想知道它是否会在本地声明时发生寻址错误,所以为了尝试它我将msghdr转换为本地范围内的动态分配指针,你知道它是什么,它有效! 它提供了与原始示例相同的控制台和内核日志输出。
Soooo ,我的实际问题实际上是出于教育目的,并且理解为什么它会以这种方式表现。
为什么全局声明的变量有效,而本地声明的变量不起作用?
此外,为什么本地声明的,动态分配的指针有效?
我在这里错过了一些基本的东西吗?
TL; DR:
为什么在用户空间程序中本地声明msghdr结构不起作用,而全局声明或本地动态指针呢?
答案 0 :(得分:2)
也许当它在堆栈上时,它的内存不会被归零,你在某个领域有垃圾。