我试图通过使用请求 - 回复模式通过zeromq获得一个python程序与另一个python程序进行通信。客户端程序应该向回复的服务器程序发送请求。
我有两台服务器,当一台服务器发生故障时,另一台服务器接管。当第一台服务器工作时,通信工作正常,但是,当第一台服务器发生故障时,当我向第二台服务器发出请求时,我看到错误:
zmp.error.ZMQError:无法在当前状态下完成操作
服务器1的代码:
# Run the server
while True:
# Define the socket using the "Context"
sock = context.socket(zmq.REP)
sock.bind("tcp://127.0.0.1:5677")
data = sock.recv().decode("utf-8")
res = "Recvd"
sock.send(res.encode('utf-8'))
服务器2的代码:
# Run the server
while True:
# Define the socket using the "Context"
sock = context.socket(zmq.REP)
sock.bind("tcp://127.0.0.1:5877")
data = sock.recv().decode("utf-8")
res = "Recvd"
sock.send(res.encode('utf-8'))
客户代码:
# ZeroMQ Context For distributed Message amogst processes
context = zmq.Context()
sock_1 = context.socket(zmq.REQ)
sock_2 = context.socket(zmq.REQ)
sock_1.connect("tcp://127.0.0.1:5677")
sock_2.connect("tcp://127.0.0.1:5877")
try:
sock_1.send(data.encode('utf-8'), zmq.NOBLOCK)
socks_1.setsockopt(zmq.RCVTIMEO, 1000)
socks_1.setsockopt(zmq.LINGER, 0)
data = socks_1.recv().decode('utf-8') #receive data from the main node
except:
try:
#when server one fails
sock_2.send(data.encode('utf-8'), zmq.NOBLOCK)
socks_2.setsockopt(zmq.RCVTIMEO, 1000)
socks_2.setsockopt(zmq.LINGER, 0)
data = socks_2.recv().decode('utf-8')
except Exception as e:
print(str(e))
这种方法有什么问题? 我该如何解决这个问题?
答案 0 :(得分:4)
REQ/REP
死锁的风险!虽然ZeroMQ是一个功能强大的框架,但理解其内部构成对于强大和可靠分布式系统设计和原型设计是必要的。
仔细观察后,使用共同的REQ/REP
正式通信模式可能会在相互死锁中离开(并确实离开)对方:其中一方期望对方做一步,这将是从来没有完成,也没有办法摆脱陷入僵局的状态。
了解更多illustrated details and FSA-schematic diagram, see this post
下一步,故障转移系统必须能够承受其自身组件的任何冲突。因此,必须设计好分布式系统状态信令,并尽可能避免对元素-FSA设计/步进/阻塞的依赖,否则,故障安全行为仍然只是一种错觉。
始终小心处理资源,不要将ZeroMQ智能信令/消息传递的组件视为任何类型的“消耗性一次性用品”,这样做可能会在学者示例中被容忍,而不是在生产系统中环境。您仍然需要支付费用(时间,资源分配/解除分配/垃圾收集)。如评论中所述,永远不要在没有适当控制的情况下创建/分配资源。 while True: .socket(); .bind(); .send();
原则上是完全错误的,并且使设计的其余部分恶化。
答案 1 :(得分:1)
在服务器端,“接收”和“发送”对至关重要。我遇到了一个类似的问题,而错过了socket.send。
def zmq_listen():
global counter
message = socket_.recv().decode("utf-8")
logger.info(f"[{counter}] Message: {message}")
request = json.loads(message)
request["msg_id"] = f"m{counter}"
ack = {"msg_id": request["msg_id"]}
socket_.send(json.dumps(ack).encode("utf-8"))
return request
答案 2 :(得分:0)
实施lazy pirate pattern。发现错误后,请根据上下文创建一个新套接字,然后尝试再次发送消息。
蛮力解决方案是关闭并重新打开REQ 错误后插入套接字
Here是一个python示例。
#
# Author: Daniel Lundin <dln(at)eintr(dot)org>
#
from __future__ import print_function
import zmq
REQUEST_TIMEOUT = 2500
REQUEST_RETRIES = 3
SERVER_ENDPOINT = "tcp://localhost:5555"
context = zmq.Context(1)
print("I: Connecting to server…")
client = context.socket(zmq.REQ)
client.connect(SERVER_ENDPOINT)
poll = zmq.Poller()
poll.register(client, zmq.POLLIN)
sequence = 0
retries_left = REQUEST_RETRIES
while retries_left:
sequence += 1
request = str(sequence).encode()
print("I: Sending (%s)" % request)
client.send(request)
expect_reply = True
while expect_reply:
socks = dict(poll.poll(REQUEST_TIMEOUT))
if socks.get(client) == zmq.POLLIN:
reply = client.recv()
if not reply:
break
if int(reply) == sequence:
print("I: Server replied OK (%s)" % reply)
retries_left = REQUEST_RETRIES
expect_reply = False
else:
print("E: Malformed reply from server: %s" % reply)
else:
print("W: No response from server, retrying…")
# Socket is confused. Close and remove it.
client.setsockopt(zmq.LINGER, 0)
client.close()
poll.unregister(client)
retries_left -= 1
if retries_left == 0:
print("E: Server seems to be offline, abandoning")
break
print("I: Reconnecting and resending (%s)" % request)
# Create new connection
client = context.socket(zmq.REQ)
client.connect(SERVER_ENDPOINT)
poll.register(client, zmq.POLLIN)
client.send(request)
context.term()