根据nvidia。 cublasZgemm比intel MKL快6倍。
然而,在我的电脑上(i7 2600,Nvidia gtx560,操作系统:linux 64bit),cublasZgemm比MKL略慢。
我使用enthought python distribution附带的numpy.dot()将numpy与MKL 10.3相关联。
使用cublasZgemm的矩阵乘法函数在共享库中编译,并在python脚本中使用ctypes调用。
当乘以两个1024x1024复数矩阵时。 numpy.dot()花了84ms。 ctypes函数调用花了110ms而cublasZgemm()部分需要花费97ms。
我想知道为什么cublassZgemm没有nvidia说的那么快?
答案 0 :(得分:4)
我想知道为什么cublassZgemm没有nvidia说的那么快?
简短的回答是因为你使用了一个慢得多的GPU来执行zgemm的基准测试,而不是NVIDIA用来生成他们的性能数据。您的GTX560的双倍精度性能可能比NVIDIA在您的链接中使用的Telsa M2090慢了 8倍。