标签: sorting cuda parallel-processing
我希望在不退出内核的情况下并行地在共享内存中对数组进行排序。
我可以使用Thrust for CUDA对全局内存中的数组进行排序。 但这只能在主机上完成。我必须退出内核。但这意味着当我重新启动另一个内核时,我将失去我线程中的所有本地内存 我将不得不重新填充本地记忆。
这有什么图书馆吗? 或者无论如何我会通过内核并主持并使用推力对设备中的数组进行排序然后恢复内核?