我在CUDA设备上有一个float3点数组。我想快速找到x,y和z分量的最小值和最大值。
我知道已经存在大量使用归约算法找到数组的最小/最大值的实现,但是我找不到对多分量变量执行相同操作的任何实现,也找不到提供大步前进。
有人知道执行此操作的任何现有实现吗?
答案 0 :(得分:0)
我想出了一种使用推力和自定义比较器的方法,
对于希望执行类似操作的任何人,您都可以执行以下操作。在我的机器上,对于超过1000万个元素的数据集,其性能要高出10倍以上:
// Comparators
struct comp_float3_x{
__host__ __device__
bool operator()(const float3& lhs, const float3& rhs){
return lhs.x < rhs.x;
}
};
struct comp_float3_y {
__host__ __device__
bool operator()(const float3& lhs, const float3& rhs) {
return lhs.y < rhs.y;
}
};
struct comp_float3_z {
__host__ __device__
bool operator()(const float3& lhs, const float3& rhs) {
return lhs.z < rhs.z;
}
};
void getMinMaxDeviceFloat3(Vec3i& min, Vec3i& max, const DeviceArray<float3>& points)
{
// Thrust does not deal with raw pointers well, wrapping is necessary
thrust::device_ptr<float3> ptr = thrust::device_pointer_cast(points.ptr());
thrust::pair<thrust::device_ptr<float3>, thrust::device_ptr<float3>> minmax_x = thrust::minmax_element(thrust::device, ptr, ptr + occupied_voxels, comp_float3_x());
thrust::pair<thrust::device_ptr<float3>, thrust::device_ptr<float3>> minmax_y = thrust::minmax_element(thrust::device, ptr, ptr + occupied_voxels, comp_float3_y());
thrust::pair<thrust::device_ptr<float3>, thrust::device_ptr<float3>> minmax_z = thrust::minmax_element(thrust::device, ptr, ptr + occupied_voxels, comp_float3_z());
// Host buffers
float3 min_x_host, min_y_host, min_z_host, max_x_host, max_y_host, max_z_host;
// Copy data to host
cudaMemcpy(&min_x_host, minmax_x.first.get(), sizeof(float3), cudaMemcpyDeviceToHost);
cudaMemcpy(&min_y_host, minmax_y.first.get(), sizeof(float3), cudaMemcpyDeviceToHost);
cudaMemcpy(&min_z_host, minmax_z.first.get(), sizeof(float3), cudaMemcpyDeviceToHost);
cudaMemcpy(&max_x_host, minmax_x.second.get(), sizeof(float3), cudaMemcpyDeviceToHost);
cudaMemcpy(&max_y_host, minmax_y.second.get(), sizeof(float3), cudaMemcpyDeviceToHost);
cudaMemcpy(&max_z_host, minmax_z.second.get(), sizeof(float3), cudaMemcpyDeviceToHost);
// Assign output
min[0] = (int)min_x_host.x;
min[1] = (int)min_y_host.y;
min[2] = (int)min_z_host.z;
max[0] = (int)max_x_host.x;
max[1] = (int)max_y_host.y;
max[2] = (int)max_z_host.z;
}