应用错误收集

CuSparse / CuBlas K40 vs GTX Titan X（麦克斯韦尔）

时间：2017-03-17 15:43:58

标签： cuda cublas flops

我正在使用特斯拉k40和GTX Titan X，我有Cuda 8.0 我使用的函数是CuBlas和CuSparse库函数： cusparseDcsrsv2_solve（）; cusparseDcsrmv（）; cublasDdot（）;

为什么GTX Titan X比K40快？我正在使用标志为nvcc编译所有计算能力从3.0到6.0 我的程序处理9 GB / 12 GB RAM。关于我库函数不使用双精度因为浮点GTX TITAN X有6.xx Tflops而K40有4.xx Tflops而浮点数双GTX TITAN X有2xx GFlops而K40有1.xx Tflops。理论上，K40必须比GTX TITAN X更快这可能是我的问题？这太奇怪了。

1 个答案:

答案 0 :(得分：1)

首先，这些问题的答案通常是：分析您的内核，您将了解到哪些运行速度较慢。

我会说，但是，假设K40比麦克斯韦泰坦X更快，那是不正确的：

时钟速度： Titan X：1000 MHz，Tesla K40：745 MHz。
内存带宽：Titan X：336 GB /秒，Tesla K40：288 GB /秒。
＆＃34; CUDA核心数量＆＃34; （即多处理器矢量化寄存器中最大同时执行的通道）：Titan X 3072，Tesla K40：2888。

所以Titan X有一大堆有利于它的统计数据，更不用说它是一个不同的微体系结构，即使使用相同的＆＃39; raw＆＃也可以在性能方面进行混合。 39;统计。因此，至少对于某些工作负载，Titan X应该更快。

当然，正如其他人所说，对于双精度浮点性能，K40应该很容易使用Titan X：K40的硅片为1430G FMA ops / sec而Titan X仅为192（！）< / p>