Question

我正在执行一系列具有相当大矩阵的矩阵乘法。要完成所有这些操作需要很长时间，因此我需要我的程序在较大的循环中执行此操作。我想知道是否有人有什么想法可以加快速度？我刚刚开始使用Eigen，所以我的知识非常有限。

我使用的是ROOT-cern内置的TMatrix类，但是执行矩阵运算的速度非常差。我使用Eigen设置了一些对角矩阵，希望它能以更好的方式处理乘法运算。可以，但是我看不到性能差异。

// setup matrices
int size = 8000;

Eigen::MatrixXf a(size*2,size);

// fill matrix a....

Eigen::MatrixXf r(2*size,2*size); // diagonal matrix of row sums of a

// fill matrix r

Eigen::MatrixXf c(size,size); // diagonal matrix of col sums of a

// fill matrix c

// transpose a in place
a.transposeInPlace();

Eigen::MatrixXf c_dia;
c_dia = c.diagonal().asDiagonal();

Eigen::MatrixXf r_dia;
r_dia = r.diagonal().asDiagonal();

// calc car
Eigen::MatrixXf car;
car = c_dia*a*r_dia;

Answer 1

您在这里做的工作太多了。如果您有对角矩阵，请仅存储对角线（并将其直接用于产品）。一旦将对角矩阵存储在正方形矩阵中，结构信息就会丢失给本征。

此外，您不需要存储a的转置变体，只需在产品内部使用a.transpose()（在这里只是一个小问题……）

// setup matrices
int size = 8000;

Eigen::MatrixXf a(size*2,size);

// fill matrix a....
a.setRandom();

Eigen::VectorXf r = a.rowwise().sum(); // diagonal matrix of row sums of a
Eigen::VectorXf c = a.colwise().sum(); // diagonal matrix of col sums of a

Eigen::MatrixXf car = c.asDiagonal() * a.transpose() * r.asDiagonal();

最后，当然要确保在启用优化的情况下进行编译，并在可用的情况下启用矢量化（使用gcc或clang用-O2 -march=native进行编译）。

矩阵乘法优化

1 个答案: