应用错误收集

时间：2012-03-04 13:29:44

标签： python cuda ctypes cublas

根据nvidia。 cublasZgemm比intel MKL快6倍。

然而，在我的电脑上（i7 2600，Nvidia gtx560，操作系统：linux 64bit），cublasZgemm比MKL略慢。

我使用enthought python distribution附带的numpy.dot（）将numpy与MKL 10.3相关联。

使用cublasZgemm的矩阵乘法函数在共享库中编译，并在python脚本中使用ctypes调用。

当乘以两个1024x1024复数矩阵时。 numpy.dot（）花了84ms。 ctypes函数调用花了110ms而cublasZgemm（）部分需要花费97ms。

我想知道为什么cublassZgemm没有nvidia说的那么快？

答案 0 :(得分：4)

我想知道为什么cublassZgemm没有nvidia说的那么快？

简短的回答是因为你使用了一个慢得多的GPU来执行zgemm的基准测试，而不是NVIDIA用来生成他们的性能数据。您的GTX560的双倍精度性能可能比NVIDIA在您的链接中使用的Telsa M2090慢了 8倍。