在用于多节点的分布式训练中,假设用于ImageNet的CNN ResNet50,并假设每个纪元都应通过数据并行性遍历节点遍历每个训练样本。
- 是否始终保证“每个样本重复一次且仅重复一次”?还是关于可能性
- 如果可以保证,TF是否需要任何协调员,例如node0在每次迷你批处理之前跨所有节点进行协调?例如分区样本,例如node0加载sample1-10K; node2加载sample10K-20K吗?
- 如果是这样,这对于给定节点是否意味着始终在时期0 ... N加载相同(或固定)的数据集/文件?尽管该步骤中的实际样品顺序可能会被打乱。