应用错误收集

对于CNN模型MobileNet，我已经编写了Cuda内核来执行。当我根据Python模型（使用cuDNN模型执行）测量这些内核的执行时间时，我的Cuda模型的运行速度比Python模型快5倍。我的问题是，cuDNN是经过高度优化的，因此其性能应比我的模型好5倍，但其性能恰恰相反。

我得到这些结果的原因可能是什么？我知道Python只是cuDNN库的包装器，因此它不需要那么长时间。有人可以帮我理解这个结果吗？