在线预测的高延迟问题

时间:2017-06-20 04:44:09

标签: google-cloud-ml google-cloud-ml-engine

我已在Google Machine Learning Engine上部署了一个线性模型进行分类,并希望使用在线预测来预测新数据。

当我使用Google API客户端库调用API时,只需0.5秒即可获得仅包含一个实例的请求的响应。我预计延迟应该小于10微秒(因为模型非常简单)并且0.5s太长了。我还尝试使用predict_proba方法离线预测新数据。获得超过100,000个实例需要花费8.2秒,这比使用Google ML引擎要快得多。有没有办法可以减少在线预测的延迟?发送请求的模型和服务器托管在同一区域。

我想实时做出预测(在API获取请求后立即返回响应)。 Google ML Engine是否适用于此目的?

1 个答案:

答案 0 :(得分:0)

更多信息会有所帮助:

  1. 您可以测量从访问服务的计算机到gcp的网络延迟吗?如果您从部署模型的同一区域中的计算引擎实例调用,则延迟将最低。

  2. 您可以发布您的主叫代码吗?

  3. 这是第一个请求或每个请求的延迟吗?

  4. 要回答您的最后一个问题,是的,cloud ml引擎旨在支持每秒高查询次数。