应用错误收集

假设您想拥有一台提供推断输入数据且具有多个GPU卡的机器。推断是由具有高GPU RAM要求的模型做出的。这些推断由同一LAN上的多台计算机使用。

输入数据量大，需要实时处理，因此需要在GPU卡之间进行负载均衡。消耗这些推论的机器是负载平衡的，并且随着负载的增加添加了更多的机器。理想情况下，您可以将GPU卡添加到单个机器上，直到达到其极限，然后添加另一台GPU机器。

如何在这样的设置中对TensorFlow推理进行负载平衡？