我将使用HPC进行研究,并且我对并行或分布式计算不了解很多。
我真的不理解pytorch中的DistributedDataParallel()
。特别是init_process_group()
。
初始化进程组的含义是什么?什么是
init_method:指定如何初始化包的URL。
例如(我在文档中找到了这些内容):
'tcp://10.1.1.20:23456'
或'file:///mnt/nfs/sharedfile'
这些网址是什么?
当前流程的等级是多少?
world_size
是否有GPU数量?
如果有人向我解释什么是DistributedDataParallel()
和init_process_group()
,因为我不了解并行或分布式计算,将不胜感激。
我将在HPC中使用Slurm(sbatch)之类的东西。