CUDA-float3数组的(x,y,z)分量的最小/最大值吗?

时间:2018-09-21 20:38:19

标签: c++ cuda max min minmax

我在CUDA设备上有一个float3点数组。我想快速找到x,y和z分量的最小值和最大值。

我知道已经存在大量使用归约算法找到数组的最小/最大值的实现,但是我找不到对多分量变量执行相同操作的任何实现,也找不到提供大步前进。

有人知道执行此操作的任何现有实现吗?

1 个答案:

答案 0 :(得分:0)

我想出了一种使用推力和自定义比较器的方法,

对于希望执行类似操作的任何人,您都可以执行以下操作。在我的机器上,对于超过1000万个元素的数据集,其性能要高出10倍以上:

// Comparators
struct comp_float3_x{
    __host__ __device__
        bool operator()(const float3& lhs, const float3& rhs){
        return lhs.x < rhs.x;
    } 
};

struct comp_float3_y {
    __host__ __device__
        bool operator()(const float3& lhs, const float3& rhs) {
        return lhs.y < rhs.y;
    }
};

struct comp_float3_z {
    __host__ __device__
        bool operator()(const float3& lhs, const float3& rhs) {
        return lhs.z < rhs.z;
    }
};

void getMinMaxDeviceFloat3(Vec3i& min, Vec3i& max, const DeviceArray<float3>& points)
{
    // Thrust does not deal with raw pointers well, wrapping is necessary
    thrust::device_ptr<float3> ptr = thrust::device_pointer_cast(points.ptr());
    thrust::pair<thrust::device_ptr<float3>, thrust::device_ptr<float3>> minmax_x = thrust::minmax_element(thrust::device, ptr, ptr + occupied_voxels, comp_float3_x());
    thrust::pair<thrust::device_ptr<float3>, thrust::device_ptr<float3>> minmax_y = thrust::minmax_element(thrust::device, ptr, ptr + occupied_voxels, comp_float3_y());
    thrust::pair<thrust::device_ptr<float3>, thrust::device_ptr<float3>> minmax_z = thrust::minmax_element(thrust::device, ptr, ptr + occupied_voxels, comp_float3_z());

    // Host buffers
    float3  min_x_host, min_y_host, min_z_host, max_x_host, max_y_host, max_z_host;

    // Copy data to host
    cudaMemcpy(&min_x_host, minmax_x.first.get(), sizeof(float3), cudaMemcpyDeviceToHost);
    cudaMemcpy(&min_y_host, minmax_y.first.get(), sizeof(float3), cudaMemcpyDeviceToHost);
    cudaMemcpy(&min_z_host, minmax_z.first.get(), sizeof(float3), cudaMemcpyDeviceToHost);
    cudaMemcpy(&max_x_host, minmax_x.second.get(), sizeof(float3), cudaMemcpyDeviceToHost);
    cudaMemcpy(&max_y_host, minmax_y.second.get(), sizeof(float3), cudaMemcpyDeviceToHost);
    cudaMemcpy(&max_z_host, minmax_z.second.get(), sizeof(float3), cudaMemcpyDeviceToHost);

    // Assign output
    min[0] = (int)min_x_host.x;
    min[1] = (int)min_y_host.y;
    min[2] = (int)min_z_host.z;
    max[0] = (int)max_x_host.x;
    max[1] = (int)max_y_host.y;
    max[2] = (int)max_z_host.z;
}