发布Azure ML Web服务并在R模型中预加载数据时,我们发现性能不一致。第一次通话很慢,但是跟随通话很快,等待一下(几分钟),下一次通话最终会显示更长的响应时间。
答案 0 :(得分:1)
Azure ML Web服务在后台运行的方式意味着托管模型的实例在非常动态的多租户环境中进行配置和移动。缓存数据(预热)可能会有所帮助,但这并不意味着所有后续调用都将使用缓存中可用的相同数据落在同一实例上。
对于需要大量内存数据的模型,此时Azure ML Web服务托管层可以提供的限制。 Microsoft R服务器可以替代托管这些大型ML工作负载并查看Service Fabric进行扩展