应用错误收集

我正在寻找在GPU上为大型阵列（数百M个元素）快速实现排序算法。我已经尝试过cudpp，并且每秒可以获得450M到500M的4字节密钥+ 4字节字段。这看起来并不坏，但仍然是CPU可以做的事情。然后我偶然发现：https://code.google.com/p/back40computing/wiki/RadixSorting在GTX480上声称700M键+值/秒。我说 - 哇！ - 我正在运行特斯拉K10，所以更强大的硬件方式，必须尝试这个！得到了代码，为nvidia功能30编译了它，尝试了...我得到的数字与cudpp代码差不多。挖掘更多，看起来像cudpp使用来自Thrust的基数排序，并且bc40算法已被合并到Thrust中，所以总而言之，我可能正在运行相同的代码。我一直在使用bc40代码中的一些参数（块大小，网格大小等），但只是设法让事情变得更糟。所以这就是问题 - 有人在不同的（更强大的）GPU上测试了cudpp基数排序或bc40基数排序吗？接近700M /秒键+值的任何地方？任何魔法按钮推？ nsight剖析器报告了25％的GPU使用率（以及作为瓶颈的共享内存访问）......

K10 GPU上的基数排序性能

0 个答案: