cusparse稀疏密集乘法x4更大的成本超过x100更多的时间

时间:2014-03-27 18:05:33

标签: cuda

使用cusparse,我首先尝试使用以下大小的稀疏密集乘法:

C1 [8692 x 8692] = A1 [8692 x 7000 sparse] x B1 [7000 x 8692]

只需0.3秒。然后我做了另一个有以下尺寸的人:

C2 [8820 x 8820] = A2 [8820 x 32000 sparse] x B2 [32000 x 8820]

所需的时间取决于稀疏矩阵中的内容,但其范围为30秒到90秒。有什么办法可以加速吗?如果可以减少运行时间,我可以用不同的方式来切割矩阵,但我不确定这里的性能问题是什么。

稀疏矩阵A1和A2以CSR格式存储,并且它们具有较差的稀疏模式,但它们同样糟糕。下面的两个数字分别显示了非零元素在A1和A2中的位置。两种情况下每列的非零元素被控制为固定为127.

Non-zero elements in A1

Non-zero elements in A2

1 个答案:

答案 0 :(得分:3)

从矩阵的稀疏模式中,您应该将矩阵A1分成2部分,其中矩阵A11包含大约前8000行,A12则包含剩余行,并使用csrmv两次。这样,cusparse将为每行的线程数选择更好的启发式算法。

您还应该考虑使用CUSPARSE 6.0 csrmv2中的新版本和转置大小写。您需要首先转置B(使用cublasgeam)并执行:

C = A1 *(B')'

转置案例要好得多,因为对B的访问都是合并的。

另一种选择是密集A1(使用cusparsecsr2dense)并使用cublas