在多GPU上训练时,我的准确度会降低是否正常?例如,当我使用 n 批量大小在单GPU上训练时,我的准确率达到63%。但是,当我为每个GPU训练4个具有 n 批量大小的GPU时,我的准确度只有58%。这两个案例都训练了100个时代
我认为渐变的平均值会使优化器难以实现。有谁经历过同样的事情?
答案 0 :(得分:0)
由于模型是在100个时期之后进行训练的,因此您可以推断出模型并找到CPU本身的准确性,因为它的计算量并不大。但是如果你想在训练时观察准确性,那么很难从每个GPU和平均值中找到准确性,这可能无法说明正在训练的模型有多好。