CUDA中的一些数学运算

时间:2013-07-14 22:27:24

标签: c cuda gpgpu

我有一个包含0,1和2的2D矩阵。我正在编写一个cuda内核,其中线程数等于矩阵大小,每个线程将对矩阵的每个元素进行操作。现在,我需要可以保持0和1的数学运算,但是将2转换为1.这是一个数学运算,没有任何if-else,它将执行以下转换:0 - > 0; 1 - > 1; 2 - > 1。是否有任何可能的方法使用数学运算符进行上述转换。任何帮助将非常感激。谢谢。

2 个答案:

答案 0 :(得分:3)

这不是一个问题。

int A;
// set A to 0, 1, or 2
int a = (A + (A>>1)) & 1;
// a is now 0 if A is 0, or 1 if A is 1 or 2

或作为宏:

#define fix01(x) ((x+(x>>1))&1)

int a = fix01(A);

这似乎也有效:

#define fix01(x) ((x&&1)&1)

我不知道布尔AND运算符(&&)的使用是否符合您对“数学运算”的定义。

答案 1 :(得分:1)

由于问题是关于“数学”函数,我建议使用以下二阶多项式:

int f(int x) { return ((3-x)*x)/2; }

但是如果你想避免分支以最大化速度:自PTX ISA 1.0以来有一条min指令。 (参见PTX ISA 3.1手册中的表36)。所以下面的CUDA代码

__global__ void test(int *x, int *y)
{
    *y = *x <= 1 ? *x : 1;
}

在我的测试中编译为以下PTX汇编程序(刚从CUDA 5调用nvcc而没有任何arch选项)

    code for sm_10
            Function : _Z4testPiS_
    /*0000*/     /*0x1000c8010423c780*/     MOV R0, g [0x4];
    /*0008*/     /*0xd00e000580c00780*/     GLD.U32 R1, global14 [R0];
    /*0010*/     /*0x1000cc010423c780*/     MOV R0, g [0x6];
    /*0018*/     /*0x30800205ac400780*/     IMIN.S32 R1, R1, c [0x1] [0x0];
    /*0020*/     /*0xd00e0005a0c00781*/     GST.U32 global14 [R0], R1;

所以使用条件的min()实现?:实际上编译为单个IMIN.S32 PTX指令而没有任何分支。因此,我建议将其用于任何实际应用:

int f(int x) { return x <= 1 ? x : 1; }

但回到仅使用非分支操作的问题:

在C中获得此结果的另一种形式是使用两个非运算符:

int f(int x) { return !!x; }

或者简单地与零比较:

int f(int x) { return x != 0; }

(!和!=的结果保证为0或1,比较第6.5.3.3节第5节和第6.5.9节C99标准第3节,ISO / IEC 9899:1999。此担保也适用于CUDA。)