有两次,当我使用4x1080ti训练模型时,服务器停机了。为什么服务器崩溃?
我得到了sysylog并发现了有关Nvidia-driver或GPU的错误。
Syslogs :(以及nvidia-bug-report.log)
[第二个]
Sep 6 21:11:41 gpu-8-server-intesight kernel:[31429.221258] NVRM: RmInitAdapter失败了! (的0x30:为0xFFFF:682)
Sep 6 21:11:41 gpu-8-server-intesight kernel:[31429.221337] NVRM: 设备承载次要编号0的rm_init_adapter失败
Sep 6 21:13:54 gpu-8-server-intesight kernel:[31562.154256] NVRM: RmInitAdapter失败了! (的0x30:为0xFFFF:682)
Sep 6 21:13:54 gpu-8-server-intesight内核:[31562.154306] NVRM: 设备承载次要编号1的rm_init_adapter失败
[第一个]
Sep 6 02:48:40 gpu-8-server-intesight kernel:[557998.990374] NVRM: GPU处于PCI:0000:04:00:GPU-bc54db68-a3cb-54e9-7287-b95c69e41cf1
Sep 6 02:48:40 gpu-8-server-intesight kernel:[557998.990375] NVRM: GPU板序列号:
Sep 6 02:48:40 gpu-8-server-intesight kernel:[557998.990376] NVRM: Xid(PCI:0000:04:00):79,GPU从公共汽车上掉下来了。
Sep 6 02:48:40 gpu-8-server-intesight kernel:[557998.990377] NVRM: GPU在0000:04:00.0已从公交车上掉下来。
Sep 6 02:48:40 gpu-8-server-intesight kernel:[557998.990377] NVRM: GPU在船上。
Sep 6 02:48:40 gpu-8-server-intesight kernel:[557998.990655] NVRM:A 已创建GPU故障转储。如果可能,请运行
Sep 6 02:48:40 gpu-8-server-intesight kernel:[557998.990655] NVRM: nvidia-bug-report.sh作为root用户在
之前收集这些数据Sep 6 02:48:40 gpu-8-server-intesight kernel:[557998.990655] NVRM: NVIDIA内核模块已卸载。
Sep 6 02:48:41 gpu-8-server-intesight kernel:[557999.884383] NVRM: GPU在0000:04:00.0已从公交车上掉下来。
Sep 6 02:48:41 gpu-8-server-intesight kernel:[557999.901942] NVRM:A 已创建GPU故障转储。如果可能,请运行
Sep 6 02:48:41 gpu-8-server-intesight kernel:[557999.901942] NVRM: nvidia-bug-report.sh作为root用户在
之前收集这些数据Sep 6 02:48:41 gpu-8-server-intesight kernel:[557999.901942] NVRM: NVIDIA内核模块已卸载。
Sep 6 02:48:41 gpu-8-server-intesight kernel:[558000.356948] NVRM: RmInitAdapter失败了! (的0x30:为0xFFFF:682)
Sep 6 02:48:41 gpu-8-server-intesight kernel:[558000.444379] NVRM: 设备承载次要编号0的rm_init_adapter失败
Sep 6 02:48:45 gpu-8-server-intesight kernel:[558004.604173] NVRM: request_irq()失败(-22)
Sep 6 02:48:48 gpu-8-server-intesight kernel:[558007.497475] NVRM: RmInitAdapter失败了! (0×23:0x56储存:468)
Sep 6 02:48:48 gpu-8-server-intesight kernel:[558007.497489] NVRM: 设备承载次要编号0的rm_init_adapter失败
Sep 6 02:48:50 gpu-8-server-intesight kernel:[558008.878985] NVRM: request_irq()失败(-22)
Sep 6 02:48:53 gpu-8-server-intesight内核:[558011.735642] NVRM: RmInitAdapter失败了! (0×23:0x56储存:468)
Sep 6 02:48:53 gpu-8-server-intesight kernel:[558011.735658] NVRM: 设备承载次要编号0的rm_init_adapter失败
Sep 6 02:48:54 gpu-8-server-intesight内核:[558013.108772] NVRM: request_irq()失败(-22)
Sep 6 02:48:55 gpu-8-server-intesight kernel:[558013.757168] BUG: 无法在0000000132081000处理内核分页请求
Sep 6 02:48:55 gpu-8-server-intesight kernel:[558013.757173] IP:[] kmem_cache_alloc + 0x77 / 0x1f0
Sep 6 02:48:55 gpu-8-server-intesight kernel:[558013.757175] PGD 10357d8067 PUD 0
答案 0 :(得分:4)
我们遇到过这个问题。据我所知,你有一个非常类似的设置与多个GPU和一个X99主板。我们设法通过在引导内核参数中设置pcie_aspm=off
来缓解错误。我搜索" aspm"在您提供的nvidia错误报告日志中,您会注意到以下内容:
[0.167842] ACPI FADT声明系统不支持PCIe ASPM,因此禁用它
[0.278085] acpi PNP0A03:03:FADT表示不支持ASPM,使用BIOS配置
[0.282583] acpi PNP0A08:00:FADT表示使用BIOS配置不支持ASPM
[2.795337] r8169 0000:0a:00.0:无法禁用ASPM;操作系统没有ASPM控制
我们的GPU服务器目前仍然存在一些问题,但这可能会有所帮助。
我最初在此thread
上找到了这个想法更新:我们仍会偶尔收到RmInitAdapter
消息,但我们不再有任何稳定性问题。为了记录我们现在正在运行Nvidia的387.34驱动程序,我们有以下启动参数:
pcie_aspm=off rcutree.rcu_idle_gp_delay=1
作为旁注,我们还有一个基于X299主板的新型四GPU盒,我们也有类似的问题。
相关: