我是Kubernetes的新手,并且想知道解决此问题的最佳方法。
我需要将各种各样的大型模型(〜5GB)加载到内存中才能运行我的应用程序。该应用程序处理指定其所需模型的请求,但实际任务是相同的。由于成本原因,我不想将所有模型都装载到单个吊舱中,因此可以更轻松地添加/删除模型。我是否可以使用一个单独的服务,其中每个Pod都加载了不同的资源子集(每个加载了1或2个),并且有针对性地将请求定向到具有所需模型的Pod?还是我需要为每种模型提供服务,然后在所有模型之前提供网关服务?
我认为process namespaces可能会实现,但是我不确定在解析请求参数并将其发送到正确的名称空间方面,服务主体的可定制性如何。