CUDA:为sm_20显示错误的lmem统计信息?

时间:2011-02-24 06:52:39

标签: cuda nvcc ptxas

在指定--ptxas-options=-v GPU架构时,使用选项sm_20编译的CUDA内核似乎显示错误的 lmem(本地内存)统计信息。这同样可以为sm_10 / sm_11 / sm_12 / sm_13架构提供有意义的lmem统计信息。

有人可以澄清sm_20 lmem统计数据是否需要以不同的方式阅读,或者它们是完全错误的?

这是内核:

__global__ void fooKernel( int* dResult )
{
        const int num = 1000;
        int val[num]; 

        for ( int i = 0; i < num; ++i )
        val[i] = i * i; 

        int result = 0; 

        for ( int i = 0; i < num; ++i )
        result += val[i]; 

        *dResult = result;

        return;
}

--ptxas-options=-vsm_20报告:

1>ptxas info    : Compiling entry function '_Z9fooKernelPi' for 'sm_20'
1>ptxas info    : Used 5 registers, 4+0 bytes lmem, 36 bytes cmem[0]

--ptxas-options=-vsm_10 / sm_11 / sm_12 / sm_13报告:

1>ptxas info    : Compiling entry function '_Z9fooKernelPi' for 'sm_10'
1>ptxas info    : Used 3 registers, 4000+0 bytes lmem, 4+16 bytes smem, 4 bytes cmem[1]

sm_20报告 4字节的lmem,如果您看到内核中使用了4x1000字节数组,则这是不可能的。较旧的GPU架构报告正确的 4000字节 lmem统计信息。

尝试使用 CUDA 3.2 。我已经参考了 NVCC手册(v3.2)的打印代码生成统计部分,但它没有帮助解释这种异常现象。

1 个答案:

答案 0 :(得分:1)

编译器是正确的。通过巧妙的优化,不需要存储阵列。你所做的就是在没有将临时值存储到result += i * i的情况下计算val

查看生成的ptx代码不会显示sm_10与sm_20的任何差异。使用decuda反编译生成的cubins将显示优化。

BTW:尽量避免本地记忆!它和全球记忆一样慢。