Question

我打算为我的应用程序的每个用户创建许多相当小的（我想象的~50MB）分类模型。我有两个主要模型，每个模型大约500MB，我们可以调用它们A和B。

我有一个首先加载模型A和B的python脚本，然后创建一个本地套接字，用于侦听带有图像文件路径的字符串（当用户上传图像时发送通过HTTP），然后它为模型predict运行A，然后使用输入图像运行B。

这是一个非常有效但我现在需要将我的小型模型自定义添加到上传图像的用户，但这可能会极大地降低系统速度，因为每次发出请求时系统都需要加载此模型（比预测方法花费更长的时间）。有没有办法解决？

我的6GB 1060 GPU仅限于~100小型号：

((6000 - 1000)/50) = ((6GB - (A + B))/small model)`

所以我不能尝试单独加载所有模型，因为我希望可能有超过100个用户。

我可能会为每个用户创建一个模型python脚本会话，其思路与第一个python脚本相同，第一个python脚本将发送带有模型B输出的套接字消息到小型会议。

出于隐私和效率原因，这些小型模型也将单独（定期）进行培训，因此我不能只创建一个大型模型C（我不认为）。

我希望我的问题有道理。请提问！