如何为Kubernetes中部署的模型缩短响应时间?
我从本地主机Tensorlfow模型得到的响应时间为0.18秒,而托管在Kubenetes集群上的同一模型给我的响应时间为4秒。
Kubernetes集群-我创建了一个简单的部署和服务于主机模型。此部署只有一个活动节点。
非常感谢您的帮助。 谢谢
答案 0 :(得分:0)
在Kubernets集群上响应延迟较高是正常现象。 Kubernetes的主要目标是管理资源。
预测速度与服务成本有直接关系,因为它与进行预测所需的计算资源量直接相关。在任何衡量预测吞吐量的公式中,做出预测所花费的时间将始终是关键变量。更快的预测意味着在相同硬件上有更多的预测吞吐量,从而降低了成本。
您可以在这里找到更多信息:tensorflow-performance。
希望对您有帮助。