标签: python keras cuda conv-neural-network cudnn
对于CNN模型MobileNet,我已经编写了Cuda内核来执行。当我根据Python模型(使用cuDNN模型执行)测量这些内核的执行时间时,我的Cuda模型的运行速度比Python模型快5倍。我的问题是,cuDNN是经过高度优化的,因此其性能应比我的模型好5倍,但其性能恰恰相反。
我得到这些结果的原因可能是什么?我知道Python只是cuDNN库的包装器,因此它不需要那么长时间。有人可以帮我理解这个结果吗?