C语言中1~1的稀疏矩阵的快速矩阵乘法

时间:2015-02-08 05:48:42

标签: c++ c arrays matrix matrix-multiplication

我正在尝试执行包含稀疏数量1 s的乘法矩阵,并将结果转换为1 s的另一个矩阵,用于所有值>=1。例如:

[ 1 1 0 ]   [ 1 0 0 ]    [ 2 0 0 ]    [ 1 0 0 ]
[ 0 0 0 ] x [ 1 0 0 ] => [ 0 0 0 ] => [ 0 0 0 ] (output)
[ 0 0 0 ]   [ 0 0 0 ]    [ 0 0 0 ]    [ 0 0 0 ]

(这些矩阵代表同等加权的有向图并有助于解决一些理论问题。)到目前为止,我发现最简单的策略是替换标准

output[i][j] += A[i][k] * B[k][j]

使用按位运算利用了我的输入矩阵中只有01 s并且输出中只需要1的事实,如下所示:< / p>

void mult(int n, int A[][n], int B[][n], int output[n][n])
{
    for (int i = 0; i < n; i++)
        for (int j = 0; j < n; j++)
            for (int k = 0; k < n; k++)
                output[i][j] = output[i][j] | A[i][k] & B[k][j];
}

然而,这仍然很慢!对于中等大小的密集矩阵(n>100),快速基准测试显示MATLAB的基础BLAS子程序比我上面的方法快3倍!

我该怎么办?在不进行缓存级优化的情况下,我能想到的唯一主要步骤是将这些矩阵表示为仅1 s坐标的数组,以利用任何稀疏性,但即使在密集的情况下,它也是如此似乎我可以做些什么来加快这个速度。

2 个答案:

答案 0 :(得分:0)

也许你应该去缓存级别优化。实际上并不难。您可以使用C code from ulmBLAS

在您的情况下,没有必要在汇编程序中实现微内核。根据您的实现修改135-143行就足够了。

编辑:此外,按照nwellnhof的建议,以int / long存储/压缩32/64位可以进一步提升性能。尽管如此,使用阻塞(缓存友好)算法是有效矩阵矩阵乘积的必要条件。

答案 1 :(得分:0)

对于具有很少非零值的大型矩阵,最好将(x,y)坐标映射到std :: vector中的值。这样,如果没有别的东西可以减少查找值时的缓存未命中数。

您还可以添加优化,例如整行或整列为零的短路情况。