在GCP VM上训练深度学习模型时ssh超时错误

时间:2019-11-26 02:34:55

标签: google-cloud-platform deep-learning

我正在尝试在GCP VM上训练一个深度学习模型,该模型应该运行10到12个小时。但是,每次运行几个纪元(几个小时),就会出现ssh超时错误。 我在配置文件上设置了以下参数,但仍然是相同的错误。  这可能是代码问题还是与VM config参数有关。

enter image description here

enter image description here

1 个答案:

答案 0 :(得分:1)

第一步是了解问题,然后选择解决方案。

创建到主机(您的VM)的SSH连接时,这会在端口22上打开TCP连接。然后SSH服务器在此SSH会话中运行Shell程序。当SSH会话关闭或中断时,shell程序将被杀死,这将杀死shell启动的大多数进程。

家庭Internet提供商经常重置长期运行的连接。这是为了防止您通过家庭Internet连接运行服务器或进行大量下载。 Internet提供商可能会重置正常连接的其他原因。您需要了解会发生这种情况,然后选择选项进行管理。

有几个可用的程序。查看tmuxscreen

我同时使用两个程序,并且更喜欢tmux。这两个程序都是免费的,非常受欢迎。还有其他方法和程序,从在后台&中运行程序到使用nohup

来自维基百科:

tmux是用于类Unix操作系统的终端多路复用器。它允许在单个窗口中同时访问多个终端会话。这对于同时运行多个命令行程序很有用。它还可以用于将进程与其控制终端分离,从而使SSH会话保持活动状态而不会被看到。

GNU Screen是一个终端多路复用器,可用于多路复用多个虚拟控制台的软件应用程序,允许用户访问单个终端窗口内的多个单独的登录会话,或从终端分离和重新连接会话。这对于从命令行界面处理多个程序,以及将程序与启动该程序的Unix shell会话分开是很有用的,尤其是这样,即使用户断开连接,远程进程也可以继续运行。