在本文中:https://arxiv.org/pdf/1609.08144.pdf" Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation",2016
在第12页的表1中,列出了2016年神经转换模型推断的解码时间在CPU上比GPU快近3倍。他们的模型在深度轴上跨GPU高度并行化。
有人有任何见解吗?
这也意味着一般来说,在GPU上进行训练时,最好在CPU上执行神经网络的测试步骤吗?对于仅使用1个GPU而非许多GPU进行训练的模型,这是否也适用?
答案 0 :(得分:1)
他们使用了88个CPU内核并将其表示为CPU,而只使用了一个GPU。因此,理论上的峰值性能并没有那么不同。接下来,数据必须加载到GPU中,这是一个开销,在CPU上不需要。这两个因素的结合使CPU过程表现更好。