Tensorflow网络资源使用情况

时间:2017-08-25 23:53:11

标签: tensorflow tensorflow-serving

要评估分布式TensorFlow中作业展示位置的质量,我想获得在培训期间通过网络发送的数据的总大小(以字节为单位)。这是为自动作业放置算法的进一步工作做准备。网络使用将衡量培训的数据位置,并代表培训延迟。

我的计划是简单地记录输出到_Send节点的张量的所有大小,然后输出并在python剖析时间轴中显示它。我已经阅读了相关的讨论herehere,并且原则上认为这是正确的。唯一值得关注的是我的实验表明,除了进程间通信之外,Send和Recv节点还用于进程内的通信 - 这与白皮书中描述的内容不同:https://www.tensorflow.org/about/bib

我的方法是否有任何警告,这是否与实际使用的网络数量相近?此外,数据传输是否有价值,以最大限度地减少来自工作实习的延迟?

0 个答案:

没有答案