Question

我想在CUDA PTX中添加两个32位无符号整数，我也想处理进位传播。我使用下面的代码来做到这一点，但结果并不像预期的那样根据{{3}}，add.cc.u32 d, a, b执行整数加法，并将进位值写入条件代码寄存器，即CC.CF。
另一方面，addc.cc.u32 d, a, b使用进位执行整数加法，并将进位值写入条件代码寄存器。这条指令的语义是
d = a + b + CC.CF。我也尝试addc.u32 d, a, b没有区别。

#include <stdio.h> #include <stdlib.h> #include <cuda_runtime_api.h> #include "device_launch_parameters.h" #include <cuda.h> typedef unsigned int u32; #define TRY_CUDA_CALL(x) \ do \ { \ cudaError_t err; \ err = x; \ if(err != cudaSuccess) \ { \ printf("Error %08X: %s at %s in line %d\n", err, cudaGetErrorString(err), __FILE__, __LINE__); \ exit(err); \ } \ } while(0) __device__ u32 __uaddo(u32 a, u32 b) { u32 res; asm("add.cc.u32 %0, %1, %2; /* inline */ \n\t" : "=r" (res) : "r" (a) , "r" (b)); return res; } __device__ u32 __uaddc(u32 a, u32 b) { u32 res; asm("addc.cc.u32 %0, %1, %2; /* inline */ \n\t" : "=r" (res) : "r" (a) , "r" (b)); return res; } __global__ void testing(u32* s) { u32 a, b; a = 0xffffffff; b = 0x2; s[0] = __uaddo(a,b); s[0] = __uaddc(0,0); } int main() { u32 *s_dev; u32 *s; s = (u32*)malloc(sizeof(u32)); TRY_CUDA_CALL(cudaMalloc((void**)&s_dev, sizeof(u32))); testing<<<1,1>>>(s_dev); TRY_CUDA_CALL( cudaMemcpy(s, s_dev, sizeof(u32), cudaMemcpyDeviceToHost) ); printf("s = %d;\n",s[0]); return 1; }

据我所知，如果结果不适合变量，则会得到一个进位，如果符号位已损坏，则会发生溢出，但我使用的是无符号值。
上面的代码尝试将0xFFFFFFFF添加到0x2，当然结果不适合32位，所以为什么我不能在__uaddc(0,0)后获得1呼叫？

编辑

Nvidia Geforce GT 520mx
Windows 7旗舰版，64位
Visual Studio 2012
CUDA 7.0

Answer 1

影响asm()语句的唯一数据依赖项是由变量绑定显式表示的那些。请注意，您可以绑定寄存器操作数，但不能绑定条件代码。由于在此代码中__uaddo(a, b)的结果立即被覆盖，编译器确定它对可观察结果没有贡献，因此是“死代码”并且可以被消除。通过使用cuobjdump --dump-sass检查生成的机器代码（SASS），可以轻松检查这一点。

如果我们的代码略有不同，不允许编译器彻底消除__uaddo()的代码，那么仍然存在编译器可以在为{{1}生成的代码之间安排它喜欢的任何指令的问题。 }和__uaddo()，这些指令可能会因__uaddc()而破坏进位标志的任何设置。

因此，如果计划将进位标志用于多字运算，则进位生成和进位消耗指令必须出现在同一__uaddo()语句中。可以在this answer中找到一个工作示例，其中显示了如何添加128位操作数。或者，如果必须使用两个单独的asm()语句，可以将进位标志设置从前一个语句设置导出到C变量中，然后将其导入后续的asm()语句中从那里。我不能想到很多情况下这是实用的，因为使用进位标志的性能优势可能会丢失。

Answer 2

因此，正如@njuffa所说，来自其他源代码的其他指令可以修改两个调用之间的CC.CF寄存器，并且无法保证获得寄存器的预期值。
作为一种可能的解决方案，可以使用__add32函数：

__device__ uint2 __add32 (u32 a, u32 b)
{
    uint2 res;
    asm ("add.cc.u32      %0, %2, %3;\n\t"
         "addc.u32        %1, 0, 0;\n\t"
         : "=r"(res.x), "=r"(res.y)
         : "r"(a), "r"(b));
    return res;
}

res.y将有可能的进位和res.x添加的结果。

CUDA - PTX携带传播

2 个答案: