我正在使用特斯拉k40和GTX Titan X,我有Cuda 8.0 我使用的函数是CuBlas和CuSparse库函数: cusparseDcsrsv2_solve(); cusparseDcsrmv(); cublasDdot();
为什么GTX Titan X比K40快? 我正在使用标志为nvcc编译所有计算能力从3.0到6.0 我的程序处理9 GB / 12 GB RAM。 关于我库函数不使用双精度因为浮点GTX TITAN X有6.xx Tflops而K40有4.xx Tflops而浮点数双GTX TITAN X有2xx GFlops而K40有1.xx Tflops。理论上,K40必须比GTX TITAN X更快 这可能是我的问题?这太奇怪了。
答案 0 :(得分:1)
首先,这些问题的答案通常是:分析您的内核,您将了解到哪些运行速度较慢。
我会说,但是,假设K40比麦克斯韦泰坦X更快,那是不正确的:
所以Titan X有一大堆有利于它的统计数据,更不用说它是一个不同的微体系结构,即使使用相同的' raw&#也可以在性能方面进行混合。 39;统计。因此,至少对于某些工作负载,Titan X应该更快。
当然,正如其他人所说,对于双精度浮点性能,K40应该很容易使用Titan X:K40的硅片为1430G FMA ops / sec而Titan X仅为192(!)< / p>