标签: tensorflow keras multi-gpu
我曾尝试使用keras训练三个UNet模型进行图像分割,以评估多GPU训练的效果。
谁能说出多GPU训练是否减少了训练时间?作为参考,我使用keras尝试了所有模型。
答案 0 :(得分:2)
我认为这是由于您使用了非常小的batch_size;在这种情况下,将梯度/计算分布在两个GPU上并取回它们的成本(以及CPU到GPU(2)的数据分配),要比并行训练(在1个GPU上)所获得的并行时间优势大得多
例如,对于批量大小为8/16的产品,期望有更大的差异。