要求:用于多节点GPU集群(每个节点具有多个GPU)的分布式系统,用于实时服务。我们正在托管实时文本转语音(客户端输入文本并向服务器发送请求,等待文本的音频实时返回)服务,这意味着接收到作业请求到在硬件上调度和分配作业应该最少(约0.01秒)。具有高度灵活性的开源是可取的。
请推荐一个可在生产服务器中使用的低延迟系统。
我已经详细研究了 slurm(C ++)和 celery(python),但是没有关于延迟的页面。如果您对两者的延迟有所了解,请与我分享。
这是在事件流处理(ESP)领域吗?