如何在Pytorch示例中为多个GPU利用DistributedDataParallel的world-size参数?

时间:2017-08-14 12:24:41

标签: python amazon-ec2 gpu pytorch

我在g2.2xlarge AWS计算机上运行this Pytorch example。因此,当我运行time python imageNet.py ImageNet2时,它运行良好,时间如下:

real    3m16.253s
user    1m50.376s
sys 1m0.872s

但是,当我添加world-size参数时,它会卡住并且不会执行任何操作。命令如下:time python imageNet.py --world-size 2 ImageNet2

那么,如何在此脚本中利用DistributedDataParallel功能和world-size参数。世界大小的参数只是分布式进程的数量

为此目的,我是否会启动另一个类似的实例?如果是,那么脚本如何识别实例?我是否需要添加一些参数,例如实例的IP或其他什么?

1 个答案:

答案 0 :(得分:0)

World size参数是分布式训练中的节点数,因此,如果将world size设置为2,则需要在另一个节点上运行同一命令,但等级不同。如果只想增加单个节点上的GPU数量,则需要更改ngpus_per_node。看看此Readme中的多节点示例。