如何在HPC中使用DistributedDataParallel()和init_process_group()?

时间:2018-11-09 19:29:26

标签: pytorch

我将使用HPC进行研究,并且我对并行或分布式计算不了解很多。 我真的不理解pytorch中的DistributedDataParallel()。特别是init_process_group()。 初始化进程组的含义是什么?什么是

  

init_method:指定如何初始化包的URL。

例如(我在文档中找到了这些内容):
'tcp://10.1.1.20:23456''file:///mnt/nfs/sharedfile'
这些网址是什么?

当前流程的等级是多少?
world_size是否有GPU数量?

如果有人向我解释什么是DistributedDataParallel()init_process_group(),因为我不了解并行或分布式计算,将不胜感激。

我将在HPC中使用Slurm(sbatch)之类的东西。

0 个答案:

没有答案