python - 如何在PyTorch中修复“ RuntimeError：地址已在使用中”？

我正在尝试使用PyTorch分布式培训师来运行分布式应用程序。我以为我会首先尝试他们提供的示例，找到here。我设置了两个AWS EC2实例，并根据链接中的描述对其进行了配置，但是，当我尝试运行代码时，遇到两个不同的错误：在node0的第一个终端窗口中，我收到错误消息：RuntimeError：地址已经在使用

在其他三个窗口下，我收到相同的错误消息：

RuntimeError：NCCL错误位于： /pytorch/torch/lib/c10d/ProcessGroupNCCL.cpp:272，未处理的系统错误

我遵循了链接中的代码，并终止了实例的重做操作，但没有帮助/

这是在每晚生成的Cuda 9.0中使用python 3.6。我尝试将两个节点上的node0的MASTER_ADDR更改为ip，并尝试使用相同的MASTER_PORT（这是一个可用的未使用端口）。但是，我仍然收到相同的错误消息。

运行此命令后，我的目标是调整this StyleGan实现，以便可以在两个不同节点中的多个GPU上进行训练。

如何在PyTorch中修复“ RuntimeError：地址已在使用中”？

1 个答案: