优化求和循环

时间:2017-11-05 16:08:44

标签: c++ optimization

我想在C ++中实现hankel转换。从向量dhtidht的转换本身(称为inout)定义为

out(m) = \sum_{n=0}^N c_{m,n}*in(n)

c定义为矩阵。因此,我通过以下方式实现它(使用armadillo):

void HT::dht(const arma::cx_colvec &in, arma::cx_colvec &out)
{
    if(out.size() != in.size())
        out = arma::cx_colvec(in.size());
//#pragma omp parallel for
    for(size_t i = 0; i < in.size(); ++i)
        F(i) = (in[i] * r_max / bessel_zeros[i]);

    std::complex<double> G_0;

    for(size_t i = 0; i < in.size(); ++i)
    {
        G_0 = 0;
        for(size_t j = 0; j < in.size(); ++j)
            G_0 += c(i, j) * F[j];
        G(i) = G_0;
    };

//#pragma omp parallel for
    for(size_t i = 0; i < in.size(); ++i)
        out(i) = (G[i] / rho_max * 
        bessel_zeros[i]);

}

根据valgrind的说法,提高此函数速度的最佳方法是什么(这是我代码中最耗时的函数)?我已经使用#pragma命令使用OpenMP测试了该函数,但这甚至减慢了它的速度。我还能做些什么来提高功能的速度?

目前该程序是使用

编译的
g++ -I -O2 -g -march=native -std=gnu++17 -fopenmp main.cpp -lm -larmadillo -lgomp -lpthread -lX11 -L/opt/boost/lib -lboost_system -o main

编辑:我注意到我可以更简洁地编写代码

F = in % (r_max / bessel_zeros);
G = c * F;
out = G % (bessel_zeros / rho_max);

对于500个元素,它给出了12.557 ms和10.082 ms的加速,对于2500个元素,加速为359.787 ms和312.383 ms。还有什么我可以优化的吗?

1 个答案:

答案 0 :(得分:0)

您可以计算一次'r_max / bessel_zeros'和'r_max * bessel_zeros'并将它们存储在一个数组中。

有没有理由为什么只有编译器具有优化级别2(-O2)而不是3?

休息看起来不错。我不认为你可以种下很多。