远程队列使用者在重启后错过第一条消息

时间:2017-02-05 12:49:30

标签: python python-3.x queue multiprocessing

我的代码如下:

server.py

import queue
from multiprocessing.managers import BaseManager

class QueueManager(BaseManager):
    pass

q = queue.Queue()
QueueManager.register('queue', callable=lambda:q)
m = QueueManager(address=('localhost', 51000), authkey=b'pass')
s = m.get_server()
s.serve_forever()

producer.py

from multiprocessing.managers import BaseManager
import time

class QueueManager(BaseManager):
    pass

QueueManager.register('queue')
m = QueueManager(address=('localhost', 51000), authkey=b'pass')
m.connect()
queue = m.queue()

idx = 0
while True:
    time.sleep(2)
    queue.put(idx)
    idx += 1

consumer.py

from multiprocessing.managers import BaseManager

class QueueManager(BaseManager):
    pass

QueueManager.register('queue')
m = QueueManager(address=('localhost', 51000), authkey=b'pass')
m.connect()
queue = m.queue()

while True:
    message = queue.get()
    print(message)

如果我运行服务器和生产者然后启动使用者,我会看到生产者放入队列中的所有消息都出现在消费者身上。但是,如果我停止使用并立即重新启动它,它总是会跳过一条消息。

说明我看到的consumer.py输出:

0
1
2
3
<restart the consumer>
5
6
7
etc.

这就是python多处理队列应该如何工作,这是一个错误还是我做错了什么?

1 个答案:

答案 0 :(得分:1)

我认为问题在于管道在python中的实现方式,或者甚至可能是对操作系统的限制。这是完整的堆栈跟踪:

Traceback (most recent call last):
  File "consumer.py", line 12, in <module>
    message = queue.get()
  File "<string>", line 2, in get
  File "/usr/local/Cellar/python3/3.6.0/Frameworks/Python.framework/Versions/3.6/lib/python3.6/multiprocessing/managers.py", line 757, in _callmethod
    kind, result = conn.recv()
  File "/usr/local/Cellar/python3/3.6.0/Frameworks/Python.framework/Versions/3.6/lib/python3.6/multiprocessing/connection.py", line 250, in recv
    buf = self._recv_bytes()
  File "/usr/local/Cellar/python3/3.6.0/Frameworks/Python.framework/Versions/3.6/lib/python3.6/multiprocessing/connection.py", line 407, in _recv_bytes
    buf = self._recv(4)
  File "/usr/local/Cellar/python3/3.6.0/Frameworks/Python.framework/Versions/3.6/lib/python3.6/multiprocessing/connection.py", line 379, in _recv
    chunk = read(handle, remaining)
KeyboardInterrupt

queue.get()调用中的值似乎丢失,而SIGINT未正确终止该调用。 queue.get()立即被取消,因此python不会完成get()调用然后丢失值。看起来更像是python没有正确取消管道上的recv

如果您要将消费者更改为:

while True:
    while queue.empty():
        sleep(0.1)
    message = queue.get()
    print(message)

它会起作用。但当然这是一种解决方法,而不是真正的解决方案。

<强>更新

在使用您的代码玩更多内容后,我认为这是一个错误,因为:

  1. followed their coding example one by one
  2. 没有任何类型的队列可以解决问题(multiprocessing.Queuemultiprocessing.JoinableQueue
  3. 还发送task_done()没有帮助
  4. 在python2和python3上都会发生错误。我建议你report this as a bug。在最坏的情况下,如果它不是一个bug,你至少得到一个解释为什么python会这样做。