标签: tensorflow
我需要引导100个虚拟服务器,并将每个虚拟服务器用于tensorflow模型推断30天。有什么工具可以做到这一点?
我目前使用映像引导服务器,并手动打开两个tmux会话。一个会话用于模型客户端,另一个会话用于tensorflow服务器。如果有任何服务器CPU停止工作,我会收到一条松弛通知,以了解服务器是否发生故障(我也手动进行SSH调试/重新启动服务器)。
将感谢您的提示!