sorting - CUDA并行排序算法与单线程排序算法

排序是一项受到广泛关注的操作。如果您对高性能感兴趣，则不建议编写自己的排序。我会考虑使用thrust，back40computing，moderngpu或CUB来对GPU进行排序。

上面的大部分内容都是一次处理一个数组，使用完整的GPU对数组进行排序。有一些技巧可以做vectorized sort，它可以“同时”处理多个数组，而CUB也可以选择进行“每线程”排序（比方说，“每个线程块”）。

一般来说，我会对CPU排序代码说同样的话。不要自己写。

编辑：我想还有一条评论。我会倾向于你提到的第一种方法（即不对每个线程进行排序。）有两个相关的原因：

大多数快速排序工作都是按照第一种方法进行的，而不是第二种方法。
当工作适应SIMD或SIMT时，GPU通常更快速。这意味着我们通常希望每个线程都做同样的事情并最小化分支和扭曲发散。在第二种情况下，这很难实现（我认为），其中每个线程出现以遵循相同的序列，但实际上数据依赖性导致“算法分歧”。从表面上看，你可能想知道第一种方法是否可能会受到同样的批评，但是由于我提到的这些库是专家写的，他们知道如何最好地利用SIMT架构。推力“矢量化排序”和CUB方法将允许每次操作完成多种排序，同时仍然利用SIMT架构。