我将 Jupyter 实验室和 Jupyter Notebook 用于我的深度学习程序,因此我进行了一些长时间的运行以训练我的模型。但是几个星期以来,经过数小时的训练后,我的内核经常重启,这很烦人。此外,服务器控制台或浏览器日志提供的信息很少:
Jupyter-lab 服务器日志:
[I 2021-02-26 00:40:03.756 ServerApp] AsyncIOLoopKernelRestarter: restarting kernel (1/5), keep random ports
kernel 1330ee40-a826-44e2-9be9-f123deeaa1b2 restarted
[I 2021-02-26 00:40:04.070 ServerApp] Starting buffering for 1330ee40-a826-44e2-9be9-f123deeaa1b2:1b7fa111-f2d2-4804-bd90-c81e26562254
[I 2021-02-26 00:40:04.112 ServerApp] Restoring connection for 1330ee40-a826-44e2-9be9-f123deeaa1b2:1b7fa111-f2d2-4804-bd90-c81e26562254
当我使用 Jupyter-notebook 而不是 Jupyter-lab 时,我遇到了同样的问题。
各种备注:
答案 0 :(得分:1)
如果想确定,可以在nohup模式下运行(后台进程)。即使您断开连接,它也会在远程服务器上运行您的 jupyter notebook 脚本。
您可以通过查看这个小教程以 nohup 模式运行: https://gist.github.com/33eyes/e1da2d78979dc059433849c466ff5996
答案 1 :(得分:0)
好的,我找到了错误的原因 -> 这肯定是我正在运行的代码中的一点内存泄漏导致程序在数百个 epoch 后崩溃。