标签: tensorflow
假设您想拥有一台提供推断输入数据且具有多个GPU卡的机器。推断是由具有高GPU RAM要求的模型做出的。这些推断由同一LAN上的多台计算机使用。
输入数据量大,需要实时处理,因此需要在GPU卡之间进行负载均衡。消耗这些推论的机器是负载平衡的,并且随着负载的增加添加了更多的机器。理想情况下,您可以将GPU卡添加到单个机器上,直到达到其极限,然后添加另一台GPU机器。
如何在这样的设置中对TensorFlow推理进行负载平衡?