标签: matrix-multiplication blas
计算n个m矩阵对具有m个条目的向量的动作的简单方法将导致代码按比例缩放为O(n×m)。
我知道使用BLAS例程是这种计算的一个很好的选择,但它们是否也比O(n x m)更好地扩展?或者它们是否比天真的方法更快但具有相同的缩放比例?
答案 0 :(得分:0)
相同的缩放。优化的BLAS通常更快。有时速度相同,因为天真的for循环可以通过具有正确编译选项的优秀编译器进行优化。这是BLAS 2级操作的情况,例如矩阵向量乘法。