CuSparse / CuBlas K40 vs GTX Titan X(麦克斯韦尔)

时间:2017-03-17 15:43:58

标签: cuda cublas flops

我正在使用特斯拉k40和GTX Titan X,我有Cuda 8.0 我使用的函数是CuBlas和CuSparse库函数: cusparseDcsrsv2_solve(); cusparseDcsrmv(); cublasDdot();

为什么GTX Titan X比K40快? 我正在使用标志为nvcc编译所有计算能力从3.0到6.0 我的程序处理9 GB / 12 GB RAM。  关于我库函数不使用双精度因为浮点GTX TITAN X有6.xx Tflops而K40有4.xx Tflops而浮点数双GTX TITAN X有2xx GFlops而K40有1.xx Tflops。理论上,K40必须比GTX TITAN X更快 这可能是我的问题?这太奇怪了。

1 个答案:

答案 0 :(得分:1)

首先,这些问题的答案通常是:分析您的内核,您将了解到哪些运行速度较慢。

我会说,但是,假设K40比麦克斯韦泰坦X更快,那是不正确的:

  • 时钟速度: Titan X:1000 MHz,Tesla K40:745 MHz。
  • 内存带宽:Titan X:336 GB /秒,Tesla K40:288 GB /秒。
  • " CUDA核心数量" (即多处理器矢量化寄存器中最大同时执行的通道):Titan X 3072,Tesla K40:2888。

所以Titan X有一大堆有利于它的统计数据,更不用说它是一个不同的微体系结构,即使使用相同的' raw&#也可以在性能方面进行混合。 39;统计。因此,至少对于某些工作负载,Titan X应该更快。

当然,正如其他人所说,对于双精度浮点性能,K40应该很容易使用Titan X:K40的硅片为1430G FMA ops / sec而Titan X仅为192(!)< / p>