每个N请求后,Nginx轮询(加权轮询?)

时间:2019-04-09 12:16:03

标签: nginx scheduling inference round-robin batching

我想运行4台服务器,我想将前10个请求发送到第一个服务器,然后将后10个请求发送到第二个服务器,依此类推。非加权循环将向第一个发送一个请求,然后向第二个发送一个请求,依此类推。

如果我将10的服务器权重应用于4台服务器中的每台,是否会出现这种情况?是前十个请求发送到第一个服务器,后十个发送到第二个服务器,依此类推,直到第一个服务器?还是权重“抵消”,而Nginx会像所有权重都设置为1一样循环轮询?

如果没有,还有其他方法可以实现这种行为吗?

我问的原因是因为这些服务器在ML模型上进行推理,并且可以将多个请求“分批”在一起并进行单个推理,而不是对每个请求进行一次推理。我们可以从一个GPU上获得10倍的加速。但是,如果不进行这种调度,是否能够扩展到多个GPU似乎令人怀疑。通过这种调度,我们可能能够为每个额外的GPU获得近乎线性的缩放比例。

谢谢

0 个答案:

没有答案