我使用Cusparse解决AX = B 1440次(A正在修改,只有对角元素,B也不同)。我只创建一次句柄和分析对象。
我正在使用cusparseScrsilu0()。
我想使用流来执行此操作。我尝试使用一个句柄并创建多个流,但没有得到任何加速。
请帮我解决这个问题。
答案 0 :(得分:1)
您希望多流设计可以使您的CUDA内核同时执行。但是,多流并不总是导致Concurrent Kernel Execution。只有当内核满足某些预先请求时才可以同时执行内核。最重要的条件之一是每个内核只占用硬件资源的一小部分(SM,纹理,本地内存等)。因此,如果问题的大小足够大,那么另一个内核就不会有额外的资源同时运行。