应用错误收集

我正在尝试就在ML训练上的GCP上建立计算集群的最佳方法寻求一些建议。我当前正在处理的工作已经超出了我可以附加到GCP实例的最多8个V100 GPU的能力，因此我想运行两个实例并在所有16个GPU上运行分布式工作。我的代码库已经可以执行此操作，我只需要确定正确配置VPC网络的细节。我已经做了很多搜索，但是我似乎找不到来自Google的与实例之间的高速通信有关的任何信息。为了使该群集有效运行，我需要能够非常快速地同步节点之间的渐变。对于大多数本地ML HPC服务器，使用100吉比特以太网或Infiniband。 GCP是否提供可以实现实例之间的这种低延迟高吞吐量通信的功能？预先感谢您的帮助。

编辑：

为澄清起见，运行iperf3时，内部IP实例之间的速度大约为200〜MB / sec。这种速度将疯狂地瓶颈化。使用现代的Infiniband连接的服务器（通常用于HPC和深度学习集群），您将获得每秒20GB以上的速度。 200MB /秒将导致整个节点的性能下降（幅度很大）。当前的瓶颈仅仅是在同一台机器上的GPU之间的p2p速度（在V100的情况下，它们使用的NVSwitch设置类似于带有SXM2的dgx-2，因此速度很快）。节点之间的任何联网都需要以这种速度竞争。我认为GCP不能为HPC类型的工作负载提供任何更快的联网吗？

GCP实例之间的高速通信

2 个答案: