我尝试用一台4 GPU的机器测试分配速度。
- 我在每个GPU上计算一个批次
- 在worker' cpu
上添加四个批处理
- 然后在ps CPU上平均四个批次并更新参数
- 已保存时间轴文件
醇>
但是在时间轴中没有从工作CPU到ps CPU的操作,并且时间跨度很长。
由于数据传输,我不知道时间在哪里?
这只在一台机器上进行测试。
时间轴如下,右上方操作是平均四个数据批量和updata参数,这里是时间轴截图:
https://cloud.githubusercontent.com/assets/16236576/25800351/87f2acb4-341b-11e7-86a1-bfb888405d72.jpeg