cublas cublasZgemm()比预期慢

时间:2012-03-04 13:29:44

标签: python cuda ctypes cublas

根据nvidia。 cublasZgemm比intel MKL快6倍。

然而,在我的电脑上(i7 2600,Nvidia gtx560,操作系统:linux 64bit),cublasZgemm比MKL略慢。

我使用enthought python distribution附带的numpy.dot()将numpy与MKL 10.3相关联。

使用cublasZgemm的矩阵乘法函数在共享库中编译,并在python脚本中使用ctypes调用。

当乘以两个1024x1024复数矩阵时。 numpy.dot()花了84ms。 ctypes函数调用花了110ms而cublasZgemm()部分需要花费97ms。

我想知道为什么cublassZgemm没有nvidia说的那么快?

1 个答案:

答案 0 :(得分:4)

  

我想知道为什么cublassZgemm没有nvidia说的那么快?

简短的回答是因为你使用了一个慢得多的GPU来执行zgemm的基准测试,而不是NVIDIA用来生成他们的性能数据。您的GTX560的双倍精度性能可能比NVIDIA在您的链接中使用的Telsa M2090慢了 8倍