在openCL中优化分支for循环

时间:2018-05-04 21:55:58

标签: c++ opencl

我有类似这样的内核代码

__kernel fn(***){
    //X,Y would be image cordinates
    int x = get_global_id(0);
    int y = get_global_id(1);

    //Initialize pixel value
    int c =  -5 + x * dx;
    int d =  -5 + y * dy;

    int k=0;
    for(; k< 500; k++){
        //Perform Some Calculations using c and d
        //Most of the calculations happen here
        if(val > threshold)
            break;
    }
    //Write data based on k
    out[x*width+j] = k;
}

我有一种感觉,因为大多数计算都发生在for循环中,并且for循环创建了一个分支,工作组中的一些工作项完成了内核执行并等待整个工作组完整。

如果输出基于执行计数器k,如何优化?

1 个答案:

答案 0 :(得分:0)

即使删除

,for循环也会有一个分支
if(val > threshold)
    break;

编译器将生成它以查看循环是否应该继续。虽然我们可以删除for循环中创建的额外分支。

k += static_cast<int>(val > threshold) * 500;

如果k,这将使val > threshold增加500,因此退出同一分支中的循环,检查k是否已达到所需值,而没有额外的分支。根据循环内部计算的重要程度,这可能无关紧要。