我正在尝试就在ML训练上的GCP上建立计算集群的最佳方法寻求一些建议。我当前正在处理的工作已经超出了我可以附加到GCP实例的最多8个V100 GPU的能力,因此我想运行两个实例并在所有16个GPU上运行分布式工作。我的代码库已经可以执行此操作,我只需要确定正确配置VPC网络的细节。我已经做了很多搜索,但是我似乎找不到来自Google的与实例之间的高速通信有关的任何信息。为了使该群集有效运行,我需要能够非常快速地同步节点之间的渐变。对于大多数本地ML HPC服务器,使用100吉比特以太网或Infiniband。 GCP是否提供可以实现实例之间的这种低延迟高吞吐量通信的功能?预先感谢您的帮助。
编辑:
为澄清起见,运行iperf3时,内部IP实例之间的速度大约为200〜MB / sec。这种速度将疯狂地瓶颈化。使用现代的Infiniband连接的服务器(通常用于HPC和深度学习集群),您将获得每秒20GB以上的速度。 200MB /秒将导致整个节点的性能下降(幅度很大)。当前的瓶颈仅仅是在同一台机器上的GPU之间的p2p速度(在V100的情况下,它们使用的NVSwitch设置类似于带有SXM2的dgx-2,因此速度很快)。节点之间的任何联网都需要以这种速度竞争。我认为GCP不能为HPC类型的工作负载提供任何更快的联网吗?
答案 0 :(得分:0)
如果您看到的不是超快速网络,我将确保两台计算机都在同一区域和区域中的同一VPC中。确保计算机之间的防火墙规则允许流量通过。
答案 1 :(得分:0)
使用Premium Tier网络时,您的流量将使用Google高性能网络。在这种情况下,您只需要确保您的计算机位于同一区域即可满足上述速度要求。