假设我有10台机器,每台机器有2个GPU,我想运行分布式TensorFlow集群。我应该为VS主设备分配多少个参数服务器?
答案 0 :(得分:5)
一个好的启发式方法是分配最少数量的参数服务器,以便网络带宽不会成为瓶颈。
例如,假设您有1000万个参数,每个计算步骤需要1秒。这意味着工作人员每秒发送40MB参数更新向量并接收相同大小的参数向量。因此每个工作人员需要320 Gbps双工带宽。假设你有10名工人。使用单个参数服务器,您的PS服务器将需要3.2 Gbps带宽。
现在假设您的网卡具有1 Gbps全双工功能。为避免以太网卡饱和,您至少需要4个参数服务器工作者。