我正在一个具有服务器容器的应用程序上工作,该服务器容器服务于两个机器学习模型以在两个不同的端口上进行推理。客户端容器在两个端口上同时发送用于推理的帧流。客户端和服务器之间的通信是通过gRPC(双向流式RPC)完成的。因此,情况如下:
client1 ------sending request stream------------- service on port 9001
client2 ------sending request stream------------- service on port 9002
以上情况同时发生。如何根据哪个客户端正在发送来确定在服务器端收到的请求的优先级?意思是如果服务器没有所需的计算,我该如何优先处理一个请求?
任何线索都会很有帮助