标签: pytorch distributed-computing distributed infiniband gpudirect
我有两台4x2080ti机器。我想通过NCCL分布式后端训练我的分布式Pytorch模型。但是培训很慢,因为这两台机器是通过1000M以太网卡连接的。 所以我想使用两个infiniband卡来连接这两台机器。 但是我的GPU是GeForce,而不是Tesla。问题是,如果GPU不支持GPUDirect,infiniband可以加速培训吗?
谢谢。