将float4分配给float数组opencl

时间:2015-05-10 19:17:08

标签: c++ opencl

我正在尝试使用float4而不是float来优化一个简单的opencl内核。

这是没有float4的示例代码。

示例代码:

__kernel void Substract (
    __global const float* data,
    const float val,
    __global float* result
){
    size_t gi = get_global_id(0);
    float input_val = data[gi];
    result[gi] =  val - input_val;
}

我对float4的想法:

__kernel void substract (
    __global const float* data,
    const float val,
    __global float* result
){
    size_t gi = get_global_id(0);

    float4 val2 = float4 (val,val,val,val);
    float4 input_val = data[gi*4];


    result[gi] = val2 - input_val;

       }

但是这不起作用,因为我们无法将float4结果写回到float数组中。将open4写回opencl中的普通float数组是否有高效的可能性?简单的想法是4次运行的for循环。

我想为gpu和cpu优化内核。 因此,如果我有一个float4和一个没有的变体,两者都应该在相同的内核参数下运行。这可能吗?

1 个答案:

答案 0 :(得分:2)

您可以将参数声明为float4指针,而无需更改主机上的任何内容。此外,如果在包含向量的表达式中使用标量值,编译器应自动加宽标量值,因此您无需手动创建float4val

__kernel void Substract (
    __global const float4* data,
    const float val,
    __global float4* result
){
    size_t gi = get_global_id(0);
    float4 input_val = data[gi];
    result[gi] =  val - input_val;
}