分布式计算的Tensorflow设置

时间:2015-12-23 15:38:25

标签: c++ tensorflow

任何人都可以提供有关如何设置tensorflow以在网络中的多个CPU上工作的指导吗?到目前为止,我发现的所有例子最多只使用一个本地盒子和多个gpus。我发现我可以在session_opts中传入目标列表,但我不确定如何在每个盒子上设置tensorflow来监听联网节点/任务。任何一个例子将不胜感激!

1 个答案:

答案 0 :(得分:4)

TensorFlow的开源版本(目前为0.6.0)仅支持单进程执行:特别是tensorflow::SessionOptions中唯一有效的目标是空字符串,这意味着“当前进程”。 / p>

TensorFlow whitepaper描述了我们在Google内部使用的分布式实现的结构(参见图3)。基本思想是Session接口可以使用RPC实现到 master ;并且主服务器可以在多个 worker 进程中的一组设备上对计算进行分区,这些进程也使用RPC进行通信。唉,目前的版本在很大程度上依赖于谷歌内部技术(如Borg),所以还有很多工作要做好为外部消费做好准备。我们目前正在处理此问题,您可以按照this GitHub issue上的进度进行操作。

2016年2月26日编辑:今天我们向GitHub发布了initial version of the distributed runtime。它支持多台机器和多个GPU。