GTX 460(GF104)比GT 740m(GK107)更快,为什么?

时间:2014-09-29 15:43:31

标签: c++ cuda

我在GT 740m(GK107)上运行gSLIC分段算法,分段需要 93ms 。 从gSLIC报告http://www.robots.ox.ac.uk/~carl/papers/gSLIC_report.pdf我知道他们使用的是GTX 460(GF104),他们的细分需要 13ms

GK107架构在两个SMX中具有 384 cuda核心,而GF104在七个SM中具有 336个cuda核心。 取决于算法(共享内存占用率)我计算出我的GK107能够在一个SMX上运行1280个活动线程,总体上有2x1280 = 2560 活动线程,GF104能够运行1280活动一个SM上的线程,总体上有7x1280 = 8960 个活动线程。但是GF104的cuda核心比GK107少,所以它应该同时处理更少的线程,不应该吗?或者GF104由于SM的数量有较小的成本?

这些结果可能是什么原因?

1 个答案:

答案 0 :(得分:1)

  

但是GF104的cuda核心比GK107少,所以它应该处理得更少   并发线程,不应该吗?

并发线程数不是唯一的指标,特别是考虑到GTX460是Fermi架构,而GT740m是Kepler。这些线程的执行速度如何?这就是费米和开普勒之间的主要区别之一,你可以在this article中阅读更多关于它的内容,它应该为你提供必要的见解。小预告:

  

因为NVIDIA基本上交易的时钟数量较少   对于大量较低时钟单元(开普勒)的单位(费米),NVIDIA不得不进入   并且SM内部每个功能单元的尺寸加倍。而a   当有一个着色器时钟时,16个CUDA核心块就可以了,现在是   完整的32个CUDA核心是必要的。

另外sonicwave指出GT740m是一款移动GPU,我们可以说,根据定义,它的总线比桌面GPU窄,仅仅是因为空间限制(台式机与笔记本电脑)。这导致了带宽的显着差异,正如Robert Crovella所述,因此在内存繁重的应用中,GTX460的性能将优于GT740m。在gpuBoss中,他们有一个很好的GPU比较实用程序,有关重要的结果,请参阅here或以下。

  

考虑Nvidia GeForce GTX 460的原因

     
      
  • 更高的有效内存时钟速度3,400 MHz vs 1,802 MHz大约高出90%的有效内存时钟速度
  •   
  • 更高的内存带宽108.8 GB / s vs 28.8 GB / s超过3.8倍的内存带宽
  •   
  • 更多渲染输出处理器32 vs 16两倍渲染输出处理器
  •   
  • 更宽的内存总线256位与128位2x更宽的内存总线
  •   
  • 更多纹理映射单元56 vs 32 24更多纹理映射单元
  •