我有一个包含0,1和2的2D矩阵。我正在编写一个cuda内核,其中线程数等于矩阵大小,每个线程将对矩阵的每个元素进行操作。现在,我需要可以保持0和1的数学运算,但是将2转换为1.这是一个数学运算,没有任何if-else,它将执行以下转换:0 - > 0; 1 - > 1; 2 - > 1。是否有任何可能的方法使用数学运算符进行上述转换。任何帮助将非常感激。谢谢。
答案 0 :(得分:3)
这不是一个问题。
int A;
// set A to 0, 1, or 2
int a = (A + (A>>1)) & 1;
// a is now 0 if A is 0, or 1 if A is 1 or 2
或作为宏:
#define fix01(x) ((x+(x>>1))&1)
int a = fix01(A);
这似乎也有效:
#define fix01(x) ((x&&1)&1)
我不知道布尔AND运算符(&&
)的使用是否符合您对“数学运算”的定义。
答案 1 :(得分:1)
由于问题是关于“数学”函数,我建议使用以下二阶多项式:
int f(int x) { return ((3-x)*x)/2; }
但是如果你想避免分支以最大化速度:自PTX ISA 1.0以来有一条min指令。 (参见PTX ISA 3.1手册中的表36)。所以下面的CUDA代码
__global__ void test(int *x, int *y)
{
*y = *x <= 1 ? *x : 1;
}
在我的测试中编译为以下PTX汇编程序(刚从CUDA 5调用nvcc而没有任何arch选项)
code for sm_10
Function : _Z4testPiS_
/*0000*/ /*0x1000c8010423c780*/ MOV R0, g [0x4];
/*0008*/ /*0xd00e000580c00780*/ GLD.U32 R1, global14 [R0];
/*0010*/ /*0x1000cc010423c780*/ MOV R0, g [0x6];
/*0018*/ /*0x30800205ac400780*/ IMIN.S32 R1, R1, c [0x1] [0x0];
/*0020*/ /*0xd00e0005a0c00781*/ GST.U32 global14 [R0], R1;
所以使用条件的min()实现?:实际上编译为单个IMIN.S32 PTX指令而没有任何分支。因此,我建议将其用于任何实际应用:
int f(int x) { return x <= 1 ? x : 1; }
但回到仅使用非分支操作的问题:
在C中获得此结果的另一种形式是使用两个非运算符:
int f(int x) { return !!x; }
或者简单地与零比较:
int f(int x) { return x != 0; }
(!和!=的结果保证为0或1,比较第6.5.3.3节第5节和第6.5.9节C99标准第3节,ISO / IEC 9899:1999。此担保也适用于CUDA。)