多个GPU实施的对比损失训练

时间:2020-03-17 16:01:55

标签: tensorflow deep-learning horovod

您能帮助我了解如何在多个GPU上以数据并行模式训练任何类型的对比损失吗?我正在使用horovod处理多GPU。在进行分类训练时,事情非常简单-将每个模型输出与其标签进行比较。但是当输出和损失函数取决于整个批次时,我不确定它是如何工作的。

例如,如果我要在BS = 64的8个GPU上进行训练,则在分类情况下,“有效批大小”将为64 * 8。但是,当我使用将输出与批次中的其他输出进行比较的任何损失时,使用多个GPU的意义何在?

谢谢!

0 个答案:

没有答案