我已在Google Machine Learning Engine上部署了一个线性模型进行分类,并希望使用在线预测来预测新数据。
当我使用Google API客户端库调用API时,只需0.5秒即可获得仅包含一个实例的请求的响应。我预计延迟应该小于10微秒(因为模型非常简单)并且0.5s太长了。我还尝试使用predict_proba方法离线预测新数据。获得超过100,000个实例需要花费8.2秒,这比使用Google ML引擎要快得多。有没有办法可以减少在线预测的延迟?发送请求的模型和服务器托管在同一区域。
我想实时做出预测(在API获取请求后立即返回响应)。 Google ML Engine是否适用于此目的?
答案 0 :(得分:0)
更多信息会有所帮助:
您可以测量从访问服务的计算机到gcp的网络延迟吗?如果您从部署模型的同一区域中的计算引擎实例调用,则延迟将最低。
您可以发布您的主叫代码吗?
这是第一个请求或每个请求的延迟吗?
要回答您的最后一个问题,是的,cloud ml引擎旨在支持每秒高查询次数。