应用错误收集

我想运行4台服务器，我想将前10个请求发送到第一个服务器，然后将后10个请求发送到第二个服务器，依此类推。非加权循环将向第一个发送一个请求，然后向第二个发送一个请求，依此类推。

如果我将10的服务器权重应用于4台服务器中的每台，是否会出现这种情况？是前十个请求发送到第一个服务器，后十个发送到第二个服务器，依此类推，直到第一个服务器？还是权重“抵消”，而Nginx会像所有权重都设置为1一样循环轮询？

如果没有，还有其他方法可以实现这种行为吗？

我问的原因是因为这些服务器在ML模型上进行推理，并且可以将多个请求“分批”在一起并进行单个推理，而不是对每个请求进行一次推理。我们可以从一个GPU上获得10倍的加速。但是，如果不进行这种调度，是否能够扩展到多个GPU似乎令人怀疑。通过这种调度，我们可能能够为每个额外的GPU获得近乎线性的缩放比例。

谢谢