在此链接https://www.tensorflow.org/beta/tutorials/distribute/multi_worker_with_estimator中,他们说,在使用Estimator进行多工作人员训练时,有必要按工作人员的数量对数据集进行分片以确保模型收敛。对于多工作人员,它们意味着多个gpu系统还是分布式培训?我在一个系统中有2个GPU,我是否必须分片数据集?
答案 0 :(得分:1)
不,您不-多个工作程序引用一台计算机。
对于具有多个GPU的单台计算机,无需分片。
本教程介绍了多个GPU所需的MirroredStrategy:https://www.tensorflow.org/beta/tutorials/distribute/keras
对于用于不同设置的不同分布式策略,您可以在这里参考以获取更多信息:https://www.tensorflow.org/beta/guide/distribute_strategy#types_of_strategies