最近,tensorflow增加了分发培训模块,分发预先要求是什么?我的意思是像这样的环境,
tensorflow >= 0.8 kubernates shared file system, gcloud?
它已经发布了示例代码:
有没有办法运行tensorflow集群示例,当只有hdfs且没有任何共享文件系统时,模型文件存储在哪里?
答案 0 :(得分:1)
每台计算机都需要安装tensorflow,(根据我的经验,它们应该都是相同的版本。我有一些问题混合版本8和9)。 设置完成后,每台计算机都需要访问要运行的代码(例如main.py)。我们使用NFS来共享它,但你可以轻松地在每台机器上使用git来获取代码的最新副本。 然后你只需要启动它们。我们只是在最基本的设置中ssh到每台机器,但是如果你有像kubernates这样的集群,那么它可能会有所不同。
至于检查站,我相信只有主要工作人员才会写入检查点文件,如果这是你最后一个问题的问题。
如果您还有其他问题,请与我们联系。