消息队列:接收错误

时间:2013-11-21 21:42:27

标签: c fork message-queue

我正在编写一个使用消息队列的软件。 我有一个问题:

主进程创建了16个儿子(使用fork),每个儿子都为下一个儿子写了一条消息。然后,他们正在等待接收他们的消息。 (儿子“0”向儿子“1”发送消息,......,儿子“15”向儿子“0”发送消息。

它在大多数时候运作良好,但有时会发生一些奇怪的事情......尽管它是由相应的儿子发送的,但它仍然没有收到它的消息!我会说它在10次成功后会发生一次。

我已经能够编写一段包含错误的代码:

#include <stdio.h>
#include <stdlib.h>
#include <time.h>
#include <termios.h>
#include <unistd.h>
#include <fcntl.h>
#include <sys/types.h>
#include <sys/ipc.h>
#include <sys/msg.h>

struct buf
{
    long mtype;
    int data[32];
};

int main(int arc, char** argv)
{
    int son = 0;
    int pid = 0;
    struct buf msgbuf;

    key_t key;
    key = ftok(argv[0], 'O');

    int qid = msgget(key, IPC_CREAT | 0666);
    if(qid < 0)
    {
        printf("Error\n");
        return -1;
    }

    //Creates 16 sons
    for(int i = 0; i < 16; i++)
    {
        pid = i;
        son = fork();
        if(son == 0)
            break;
    }

    if(son == 0)
    {
        msgbuf.mtype = ((pid + 1) % 16) + 1;
        for(int i = 0; i < 32; i++)
            msgbuf.data[i] = pid;
        printf("Writing %d\n", ((pid + 1) % 16) + 1);
        msgsnd(qid, &msgbuf, 32 * sizeof(int), IPC_NOWAIT);
        printf("Waiting for %d\n", pid + 1);
        msgrcv(qid, &msgbuf, 32 * sizeof(int), pid + 1, 0);
        printf("Got %d\n", (int)msgbuf.mtype);
    }

    sleep(3);
    printf("----- END -----\n");

    msgctl(qid, IPC_RMID, NULL);

    return 0;
}

所以,预期的行为是这样的:

Writing 2
Writing 3
Waiting for 1
Waiting for 2
Got 2
Writing 4
Waiting for 3
Got 3
Writing 5
Waiting for 4
Got 4
Writing 6
Waiting for 5
Got 5
Writing 7
Waiting for 6
Got 6
Writing 8
Waiting for 7
Got 7
Writing 9
Waiting for 8
Got 8
Writing 10
Waiting for 9
Got 9
Writing 11
Waiting for 10
Got 10
Writing 12
Waiting for 11
Got 11
Writing 13
Waiting for 12
Got 12
Writing 14
Waiting for 13
Got 13
Writing 15
Waiting for 14
Got 14
Writing 16
Waiting for 15
Got 15
Writing 1
Waiting for 16
Got 16
Got 1
----- END -----
----- END -----
----- END -----
----- END -----
----- END -----
----- END -----
----- END -----
----- END -----
----- END -----
----- END -----
----- END -----
----- END -----
----- END -----
----- END -----
----- END -----
----- END -----
----- END -----

但有时,我有类似的东西:

Writing 2
Writing 3
Waiting for 1
Waiting for 2
Got 2
Writing 4
Waiting for 3
Got 3
Writing 5
Waiting for 4
Got 4
Writing 6
Waiting for 5
Got 5
Writing 7
Waiting for 6
Got 6
Writing 9
Waiting for 8
Writing 8
Waiting for 7
Got 7
Got 8
Writing 10
Waiting for 9
Got 9
Writing 11
Waiting for 10
Got 10
Writing 12
Waiting for 11
Got 11
Writing 13
Writing 14
Waiting for 12
Waiting for 13
Got 12
Writing 15
Waiting for 14
Got 14
Writing 16
Waiting for 15
Got 15
Writing 1
Waiting for 16
Got 16
Got 1
----- END -----
----- END -----
----- END -----
----- END -----
----- END -----
Got 14
----- END -----
----- END -----
----- END -----
----- END -----
----- END -----
----- END -----
----- END -----
----- END -----
----- END -----
----- END -----
----- END -----

正如您所看到的,从未收到消息“14”,并且在3秒后,代码释放队列导致假冒“Got 14”。

在我的真实代码中,我使用信号量来确保程序仅在每个人收到他的消息后退出。这意味着发生了死锁。实际上,信息永远不会被接收,信号量永远不会被“解锁”。所以这不是因为睡眠时间太短或类似的事情。这不是因为我之后删除了队列。

但是不要忘记大多数时候,这没关系!我不明白为什么有时儿子永远不会得到他的信息。

你能帮助我吗?

2 个答案:

答案 0 :(得分:1)

首先,关于术语的一个友好的迂腐的挑剔:分叉的过程通常被更性别中立的“孩子”而不是“儿子”所指。 : - )

接下来,您是否有意在退出之前将所有工人的孩子延迟3秒?因为这就是代码目前所做的事情。在退出之前,所有进程都必须执行sleep(3)。在测试代​​码时,我将该块重写为:

if (son > 0)
{
    sleep(1);
    printf("main program exiting\n");
}
else
{
    printf("(%d) ----- END -----\n", pid);
}

我认为你在第二个输出块中误解了结果。我的理论是,输出可能存在一些时序/缓冲问题,这可能在多个进程同时尝试写入stdout时发生。

我可以问一下你希望用这个消息队列完成什么吗?您似乎正在尝试使用队列来安排工作进程的装配线,而不是通常使用这些数据结构的方式。

答案 1 :(得分:0)

我终于找到了发生的事情。

当我写入消息队列时,我做“msgsnd(qid,&amp; msgbuf,32 * sizeof(int),IPC_NOWAIT);”,问题似乎是“IPC_NOWAIT”,看来有时队列变满了并且实际上没有写入消息(由于标志“IPC_NOWAIT”而被跳过)。

没有这个标志,这没关系。