PTX是否真的有64位Warp Shuffle指令?

时间:2020-02-11 07:15:59

标签: cuda

我注意到在__shfl_sync()的文档中,相对而言,它支持64位数据类型(long,double)。

这是否意味着硬件/ PTX本机支持64位warp改组,还是在编译代码时将其分解为一对32位shuffle?

1 个答案:

答案 0 :(得分:2)

当前有no 64-bit shuffle instruction in PTX。当前所有CUDA GPU中的基本寄存器单元均为32位。 64位数量没有相应的64位寄存器,而是占用一对32位寄存器。机器级别的经纱随机播放操作在32位寄存器上进行。

编译器通过发出2个PTX(或SASS)指令来处理CUDA C ++的shfl内在函数的64位操作数。使用CUDA binary utilities可以很容易地发现/确认这一点。

示例:

$ cat t45.cu
typedef double mt;
__global__ void k(mt *d){
        mt x = d[threadIdx.x];
        x = __shfl_sync(0xFFFFFFFF, x, threadIdx.x+1);
        d[threadIdx.x] = x;
}

$ nvcc -c t45.cu
$ cuobjdump -ptx t45.o

Fatbin elf code:
================
arch = sm_30
code version = [1,7]
producer = cuda
host = linux
compile_size = 64bit

Fatbin ptx code:
================
arch = sm_30
code version = [6,2]
producer = cuda
host = linux
compile_size = 64bit
compressed








.version 6.2
.target sm_30
.address_size 64



.visible .entry _Z1kPd(
.param .u64 _Z1kPd_param_0
)
{
.reg .pred %p<3>;
.reg .b32 %r<9>;
.reg .f64 %fd<3>;
.reg .b64 %rd<5>;


ld.param.u64 %rd1, [_Z1kPd_param_0];
cvta.to.global.u64 %rd2, %rd1;
mov.u32 %r5, %tid.x;
mul.wide.u32 %rd3, %r5, 8;
add.s64 %rd4, %rd2, %rd3;
ld.global.f64 %fd1, [%rd4];
add.s32 %r6, %r5, 1;

        mov.b64 {%r1,%r2}, %fd1;

        mov.u32 %r7, 31;
mov.u32 %r8, -1;
shfl.sync.idx.b32 %r4|%p1, %r2, %r6, %r7, %r8;
shfl.sync.idx.b32 %r3|%p2, %r1, %r6, %r7, %r8;

        mov.b64 %fd2, {%r3,%r4};

        st.global.f64 [%rd4], %fd2;
ret;
}


$