标签: cuda
我编写了一个内核,它在读取指令时遇到了一些问题。超过75%的问题失速原因是由于取指令。
我不知道如何改进这一点。 Nvidia没有说明取指令策略的任何内容,Nsight文档也没有说明任何结果:“如果尚未获取下一个汇编指令,则指令取消停止原因。”
有什么方法可以避免这个问题(或减少影响)?