我正在使用CUDA占用计算器来尝试优化我的CUDA内核。目前我使用34个寄存器和零共享内存......因此,每个块310个线程的最大占用率为63%。当我能以某种方式改变寄存器(例如通过将内核参数通过共享存储器传递)到20或更低时,我可以获得100%的占用率。这是一个很好的方法,还是建议我使用另一种优化途径?
此外,我还想知道是否有更新版本的Compute Capability 2.1占用计算器!?
答案 0 :(得分:15)
需要考虑的一些要点:
答案 1 :(得分:5)
talonmies是正确的,占用被高估了。
瓦西里·沃尔科夫在GTC2010上就这一主题进行了精彩的演讲:“在较低的占用率下表现更佳。”