我开发了一个聊天机器人.. 而且我已经使用Flask Web应用程序进行了聊天机器人模型的构建和预测,并通过使用nginx和wsgi对它进行了docker化将其托管在Ec2服务器中。
flask服务器正在公开一个剩余的api ..并且我已经在html和ajax网络调用前端中使用此剩余的api创建了一个ui来与机器人进行聊天并与机器人聊天
我有一个用例 ppl可以进入我的网络应用程序并在那里训练自己的模型,并建立一个聊天机器人并与之聊天的地方。就像Dialogflow一样。 当前,将为不同的用户构建不同的模型,并将模型存储在Digital Ocean Tomcat Server中。 每当用户想要聊天时...从数字海洋服务器中加载该特定用户的模型并将其用于预测。
因此,将有N个用于不同聊天机器人的模型 发生了什么..当我们想要聊天以加载模型时,它花费了很多时间 如果是一个模型,则默认情况下我会在聊天服务器中加载该模型 但是由于它是针对不同机器人的多个模型,因此模型加载需要时间
我提供了一种将模型存储在redis缓存中并在预测时加载的方法。在首次加载时,每个模型的retl缓存保持ttl 7分钟
redis如何将响应时间减少到平均2000毫秒。..但还不够
我需要低于1000毫秒的响应时间,
您能建议我吗。 如何在生产中加载多个模型并以最佳方式提供分类服务。
谢谢。
将多模型深度学习模型部署到生产中的最佳实践 响应时间应小于100ms以下