我是GPU和并行编程的新手。 我想在不同的数据上执行一个函数说'A'并行说x1,x2,x3 .... 'A'调用函数'cublas_sgemm'。
然后我是否需要关心cublas_sgemm的实现?
答案 0 :(得分:1)
您不必担心cublasSgemm的实施。它将使用尽可能多的问题大小的设备。对于相当大的矩阵,它将使用整个设备。对于有效利用整个设备的任何功能,通过尝试添加额外的并行性(而不是仅按顺序发布gemm函数,适当使用复制和计算的重叠),您不太可能在性能方面有很大改进
对于小型矩阵,有一个batched gemm function应该比试图自己管理并行性更好。