我正在尝试在GKE上部署TF服务并尝试建立一个高度可用的在线预测系统。我试图通过将多个请求一起批处理来优化延迟。然而,延迟似乎遭受而不是改善。
(batch_size, input_size)
而不是(1, input_size)
<的数组的请求/ LI>
我的直觉是,尽管批处理在与GPU一起使用时带来了最大的好处,但是将它与CPU一起使用不应该让它变慢。下面的图表说明了减速 - req / s是预测/ s,即20将被分成4或2个服务器请求。
我理解这不会将工作负载均匀地分布在群集上以获得较少数量的请求 - 但即使查看60或120,延迟也会更高。
知道为什么会这样吗?