我一直在寻找代码,我在代码或API中没有看到任何有关GPU服务器集群培训的内容。
它是否已经分发了培训功能?
答案 0 :(得分:14)
已更新:
发布于2016年2月26日,由合着者Derek Murray在原始问题here中宣布,并使用gRPC进行进程间通信。
上一页:
在上述更新之前, TensorFlow 的分布式实施尚未发布。支持分布式实施是this issue的主题,共同作者Vijay Vasudevan wrote:
我们正在努力使分布式实现可用,它是 目前还没有在初始版本中
和杰夫迪恩后来提供了an update:
我们目前的内部分布式扩展有点纠结 与谷歌内部基础设施,这就是我们发布的原因 首先是单机版。代码还没有在GitHub中,因为 它依赖于Google代码库的其他部分 当下,其中大部分已被修剪,但还有一些剩余 的。
我们意识到分布式支持非常重要,而且它是一个 我们目前优先考虑的主要功能。
答案 1 :(得分:8)
我们花了几个月的时间,但今天标志着最初distributed TensorFlow runtime的发布。这包括支持多台机器,每台机器都有多个GPU,并由gRPC提供通信。
当前版本包含必要的后端组件,以便您可以手动组装群集并从客户端程序连接到群集。有关详细信息,请参阅readme。
答案 2 :(得分:1)
你可能已经注意到了。 Tensorflow已经支持分布式DNN培训很长一段时间了。有关详细信息,请参阅其官方网站。
=============================================== ==========================
不,它还不支持分发培训,这有点令人失望。但我认为很难从单机扩展到多机。与其他开源库(如Caffe)相比,TF的数据图结构更适合跨机器任务。