让我们采取一个实际情况,研究人员在使用TensorFlow时经常发现自己:
- 可以使用多个GPU进行培训,我希望将它们用于加速。
- 随后,我想将训练有素的模型提供给一个同事或合作者,其中包含不同(可能是1 !!)的GPU数量。
- 在与多个协作者共享时,无需修改代码即可使用。
但是,对于这种情况,TensorFlow文档/示例不是很清楚/解释。
基本问题是:
- 如何编写一个代码,该代码涉及培训具有多个GPU的模型,以及哪些模型可以从检查点轻松恢复?
- 如何处理我的协作者拥有不同数量的GPU资源的情况?更准确地说,我应该遵循哪些最佳实践来确保我们与他们共享的代码和模型很容易被他们使用?
醇>
是否有一些示例或最佳实践其他TensorFlow用户(面临相同情况!!)可以共享?
注意:我不是在寻找现成的解决方案。我的主要目的是了解TensorFlow功能,该功能没有很好的记录。