我在g2.2xlarge
AWS计算机上运行this Pytorch example。因此,当我运行time python imageNet.py ImageNet2
时,它运行良好,时间如下:
real 3m16.253s
user 1m50.376s
sys 1m0.872s
但是,当我添加world-size
参数时,它会卡住并且不会执行任何操作。命令如下:time python imageNet.py --world-size 2 ImageNet2
那么,如何在此脚本中利用DistributedDataParallel
功能和world-size
参数。世界大小的参数只是分布式进程的数量。
为此目的,我是否会启动另一个类似的实例?如果是,那么脚本如何识别实例?我是否需要添加一些参数,例如实例的IP或其他什么?
答案 0 :(得分:0)
World size参数是分布式训练中的节点数,因此,如果将world size设置为2,则需要在另一个节点上运行同一命令,但等级不同。如果只想增加单个节点上的GPU数量,则需要更改ngpus_per_node
。看看此Readme中的多节点示例。