标签: memory cuda cublas
我注意到我可以使用内存块来表示使用cudamalloc()或cublasalloc()函数分配的矩阵来调用cublas函数。使用cudamalloc()而不是cublasalloc()分配的数组的矩阵传输速率和计算速度较慢,尽管使用cudamalloc()使用数组还有其他优点。为什么会这样?听到一些评论会很高兴。
答案 0 :(得分:5)
cublasAlloc本质上是cudaMalloc()的包装器,因此应该没有区别,代码中是否有其他更改?
cublasAlloc
cudaMalloc()