我正在尝试在Google colab上训练我的深度学习模型,他们提供免费的K80 GPU。我了解到它可以一次使用12个小时,然后你必须重新连接它。但是我的连接在10-15分钟后丢失了,我无法重新连接(它在初始化时仍然停留)。这有什么问题?
答案 0 :(得分:1)
我已经能够运行视觉训练模型,它会在一夜之间断开连接并停止。它运行时间可能是12小时。我还使用CPU训练了模型并获得了相同的结果,尽管没有完成多个时期。我已经搜索过CPU没有成功的时间限制。训练计划使用tensorflow.saver在训练期间使用检查点,以便在检查点中断时重新开始训练。
答案 1 :(得分:-1)
在我的大学中,这被证明是网络问题。我的大学有一个登录门户可以访问互联网。绕过它可以解决问题。