我正在寻找在GPU上为大型阵列(数百M个元素)快速实现排序算法。我已经尝试过cudpp,并且每秒可以获得450M到500M的4字节密钥+ 4字节字段。这看起来并不坏,但仍然是CPU可以做的事情。然后我偶然发现:https://code.google.com/p/back40computing/wiki/RadixSorting在GTX480上声称700M键+值/秒。我说 - 哇! - 我正在运行特斯拉K10,所以更强大的硬件方式,必须尝试这个!得到了代码,为nvidia功能30编译了它,尝试了...我得到的数字与cudpp代码差不多。挖掘更多,看起来像cudpp使用来自Thrust的基数排序,并且bc40算法已被合并到Thrust中,所以总而言之,我可能正在运行相同的代码。我一直在使用bc40代码中的一些参数(块大小,网格大小等),但只是设法让事情变得更糟。所以这就是问题 - 有人在不同的(更强大的)GPU上测试了cudpp基数排序或bc40基数排序吗?接近700M /秒键+值的任何地方?任何魔法按钮推? nsight剖析器报告了25%的GPU使用率(以及作为瓶颈的共享内存访问)......