应用错误收集

我希望在不退出内核的情况下并行地在共享内存中对数组进行排序。

我可以使用Thrust for CUDA对全局内存中的数组进行排序。但这只能在主机上完成。我必须退出内核。但这意味着当我重新启动另一个内核时，我将失去我线程中的所有本地内存我将不得不重新填充本地记忆。