变量预评估在循环范围内分割

时间:2016-02-29 16:19:34

标签: c++ multithreading c++11

我想多线程一个for循环,但我在循环中有一些变量需要知道以前的状态。 好吧,解释起来并不容易。

这是一个例子:

    double mu1 = 0, q1 = 0;
    double max_sigma = 0, max_val = 0;
    for( i = 0; i < N; i++ )
    {
        double p_i, q2, mu2, sigma;
        p_i = h[i]*scale;
        mu1 *= q1;
        q1 += p_i;
        q2 = 1. - q1;

        if(std::min(q1,q2) < FLT_EPSILON || std::max(q1,q2) > 1. -FLT_EPSILON )
            continue;

        mu1 = (mu1 + i*p_i)/q1;
        mu2 = (mu - q1*mu1)/q2;
        sigma = q1*q2*(mu1 - mu2)*(mu1 - mu2);
        if( sigma > max_sigma )
        {
            max_sigma = sigma;
            max_val = i;
        }
    }

scaledouble标量值。

hstd::vector<std::uint64_t>

如果我在处理任何子范围的sevral部分中分割范围,我可以在本地(在每个线程中)首先计算p_i

但我不知道如何确定值mu1

所以我的问题是:有没有办法在线程开始时确定mu1范围B而没有事先mu1结果在线程中为一个范围处理了什么一个? 如果是,怎么样?

2 个答案:

答案 0 :(得分:2)

对于所显示的代码,使用多线程解决方案似乎很难实现。问题是mu1q1取决于前一个循环的值,所以在上一个循环完成之前你不能真正继续。

如果你的代码更像是:

for( i = 0; i < N; i++ )
{
    SomeComplexAndSlowCalculation(); // Not depending on mu1 and q1

    mu1 = mu1 * ....;
    q1 = q1 + ....;

    SomeOtherComplexAndSlowCalculation(); // Depending on mu1 and q1
                                          // but not changing them

}

您可以使用std::condition_variable这样的内容:

    SomeComplexAndSlowCalculation(); // Not depending on mu1 and q1

    cv_previous.wait(...);  // wait for thread handling previous index to complete

    mu1 = mu1 * ....;
    q1 = q1 + ....;

    cv_next.notify_one(); // tell thread handling next index to carry on

    SomeOtherComplexAndSlowCalculation(); // Depending on mu1 and q1
                                          // but not changing them

您必须为每个索引启动一个新线程。

为了使这有任何区别/改进,这两个功能必须非常慢。

答案 1 :(得分:1)

我怀疑并行性会导致速度提升,但是你要做到这一点的方法是代数地将你的计算减少到基于i的绝对值而不是之前的状态(i-1),例如,取代

p_1 = h[i]*scale;
mu1 *= q1;
q1 += p_1;

mu1 = product_n(pre_scaled_h, 0, i-1);
q1 = sum_n(pre_scaled_h, 0, i);

其中h []被预先缩放以简化对它的操作,并且product_n和sum_n被定义为计算相应的乘积和预先缩放的h中从0到相应的第三参数的元素之和(注意mu1)基于i-1而不是i,因为在重新计算q1之前它乘以q1。)

这种代数减少将消除对前一次迭代的依赖,并且对于除max_sigma和max_val之外的所有变量应该是可能的,这些变量可能必须在每个单独的线程上计算,然后相应的线程最大值集必须是相比之下找到真正的最大值。传统的锁定可能会消除任何可能的速度增加,因此处理需要自己仔细管理线程(因为例如并发:: parallel_for不能保证哪个工作块将在给定线程上运行)。

请注意,您应该能够将其减少为单个计算而不是迭代循环(当然,对h进行简单的求和/乘积运算),因为代数减少似乎完全基于h []。如果您可以在没有迭代循环的情况下将其缩减为单个方程式,那么您将获得比任何其他选项更多的性能。