参数服务器与分布式张量流中的主设备的比例是多少?

时间:2017-09-06 05:46:38

标签: tensorflow distributed

假设我有10台机器,每台机器有2个GPU,我想运行分布式TensorFlow集群。我应该为VS主设备分配多少个参数服务器?

1 个答案:

答案 0 :(得分:5)

一个好的启发式方法是分配最少数量的参数服务器,以便网络带宽不会成为瓶颈。

例如,假设您有1000万个参数,每个计算步骤需要1秒。这意味着工作人员每秒发送40MB参数更新向量并接收相同大小的参数向量。因此每个工作人员需要320 Gbps双工带宽。假设你有10名工人。使用单个参数服务器,您的PS服务器将需要3.2 Gbps带宽。

现在假设您的网卡具有1 Gbps全双工功能。为避免以太网卡饱和,您至少需要4个参数服务器工作者。