Question

我正在阅读CUB文档和示例：

#include <cub/cub.cuh>   // or equivalently <cub/block/block_radix_sort.cuh>
__global__ void ExampleKernel(...)
{
    // Specialize BlockRadixSort for 128 threads owning 4 integer items each
typedef cub::BlockRadixSort<int, 128, 4> BlockRadixSort;
    // Allocate shared memory for BlockRadixSort
__shared__ typename BlockRadixSort::TempStorage temp_storage;
    // Obtain a segment of consecutive items that are blocked across threads
int thread_keys[4];
...
    // Collectively sort the keys
BlockRadixSort(temp_storage).Sort(thread_keys);
...
}

在该示例中，每个线程有4个键。看起来'thread_keys'将在全局本地内存中分配。如果我每个线程只有1个密钥，我可以声明“int thread_key;”并将此变量仅限注册？

BlockRadixSort（temp_storage）.Sort（）将指向键的指针作为参数。是否意味着密钥必须在全局内存中？

我想使用这段代码，但我希望每个线程都能在寄存器中保存一个密钥，并在分类后将它保存在寄存器/共享内存中。提前谢谢！

Answer 1

您可以使用共享内存（将其保持“片内”）来执行此操作。我不知道如何在不解构BlockRadixSort对象的情况下使用严格的寄存器来完成它。

这是一个示例代码，它使用共享内存来保存要排序的初始数据，以及最终的排序结果。此示例主要是为每个线程设置一个数据元素，因为这似乎是您要求的。将它扩展到每个线程的多个元素并不困难，除了数据合成和调试打印输出之外，我已经将大部分管道用于实现这一点：

#include <cub/cub.cuh>
#include <stdio.h>
#define nTPB 32
#define ELEMS_PER_THREAD 1

// Block-sorting CUDA kernel (nTPB threads each owning ELEMS_PER THREAD integers)
__global__ void BlockSortKernel()
{
    __shared__ int my_val[nTPB*ELEMS_PER_THREAD];
    using namespace cub;
    // Specialize BlockRadixSort collective types
    typedef BlockRadixSort<int, nTPB, ELEMS_PER_THREAD> my_block_sort;
    // Allocate shared memory for collectives
    __shared__ typename my_block_sort::TempStorage sort_temp_stg;

    // need to extend synthetic data for ELEMS_PER_THREAD > 1
    my_val[threadIdx.x*ELEMS_PER_THREAD]  = (threadIdx.x + 5)%nTPB; // synth data
    __syncthreads();
    printf("thread %d data = %d\n", threadIdx.x,  my_val[threadIdx.x*ELEMS_PER_THREAD]);

    // Collectively sort the keys
    my_block_sort(sort_temp_stg).Sort(*static_cast<int(*)[ELEMS_PER_THREAD]>(static_cast<void*>(my_val+(threadIdx.x*ELEMS_PER_THREAD))));
    __syncthreads();

    printf("thread %d sorted data = %d\n", threadIdx.x,  my_val[threadIdx.x*ELEMS_PER_THREAD]);
}

int main(){
    BlockSortKernel<<<1,nTPB>>>();
    cudaDeviceSynchronize();

}

这似乎对我来说正常，在这种情况下我碰巧使用RHEL 5.5 / gcc 4.1.2，CUDA 6.0 RC和CUB v1.2.0（这是最近的）。

据我所知，需要奇怪/丑陋的static casting，因为CUB Sort的长度expecting a reference to an array等于自定义参数ITEMS_PER_THREAD（即{ {1}}）：

ELEMS_PER_THREAD

在芯片上完全使用CUB blockradixsort？

1 个答案: