Question

我想多线程一个for循环，但我在循环中有一些变量需要知道以前的状态。好吧，解释起来并不容易。

这是一个例子：

    double mu1 = 0, q1 = 0;
    double max_sigma = 0, max_val = 0;
    for( i = 0; i < N; i++ )
    {
        double p_i, q2, mu2, sigma;
        p_i = h[i]*scale;
        mu1 *= q1;
        q1 += p_i;
        q2 = 1. - q1;

        if(std::min(q1,q2) < FLT_EPSILON || std::max(q1,q2) > 1. -FLT_EPSILON )
            continue;

        mu1 = (mu1 + i*p_i)/q1;
        mu2 = (mu - q1*mu1)/q2;
        sigma = q1*q2*(mu1 - mu2)*(mu1 - mu2);
        if( sigma > max_sigma )
        {
            max_sigma = sigma;
            max_val = i;
        }
    }

scale是double标量值。

h是std::vector<std::uint64_t>

如果我在处理任何子范围的sevral部分中分割范围，我可以在本地（在每个线程中）首先计算p_i。

但我不知道如何确定值mu1。

所以我的问题是：有没有办法在线程开始时确定mu1范围B而没有事先mu1结果在线程中为一个范围处理了什么一个？如果是，怎么样？

Answer 1

对于所显示的代码，使用多线程解决方案似乎很难实现。问题是mu1和q1取决于前一个循环的值，所以在上一个循环完成之前你不能真正继续。

如果你的代码更像是：

for( i = 0; i < N; i++ )
{
    SomeComplexAndSlowCalculation(); // Not depending on mu1 and q1

    mu1 = mu1 * ....;
    q1 = q1 + ....;

    SomeOtherComplexAndSlowCalculation(); // Depending on mu1 and q1
                                          // but not changing them

}

您可以使用std::condition_variable这样的内容：

    SomeComplexAndSlowCalculation(); // Not depending on mu1 and q1

    cv_previous.wait(...);  // wait for thread handling previous index to complete

    mu1 = mu1 * ....;
    q1 = q1 + ....;

    cv_next.notify_one(); // tell thread handling next index to carry on

    SomeOtherComplexAndSlowCalculation(); // Depending on mu1 and q1
                                          // but not changing them

您必须为每个索引启动一个新线程。

为了使这有任何区别/改进，这两个功能必须非常慢。

Answer 2

我怀疑并行性会导致速度提升，但是你要做到这一点的方法是代数地将你的计算减少到基于i的绝对值而不是之前的状态（i-1），例如，取代

p_1 = h[i]*scale;
mu1 *= q1;
q1 += p_1;

mu1 = product_n(pre_scaled_h, 0, i-1);
q1 = sum_n(pre_scaled_h, 0, i);

其中h []被预先缩放以简化对它的操作，并且product_n和sum_n被定义为计算相应的乘积和预先缩放的h中从0到相应的第三参数的元素之和（注意mu1）基于i-1而不是i，因为在重新计算q1之前它乘以q1。）

这种代数减少将消除对前一次迭代的依赖，并且对于除max_sigma和max_val之外的所有变量应该是可能的，这些变量可能必须在每个单独的线程上计算，然后相应的线程最大值集必须是相比之下找到真正的最大值。传统的锁定可能会消除任何可能的速度增加，因此处理需要自己仔细管理线程（因为例如并发:: parallel_for不能保证哪个工作块将在给定线程上运行）。

请注意，您应该能够将其减少为单个计算而不是迭代循环（当然，对h进行简单的求和/乘积运算），因为代数减少似乎完全基于h []。如果您可以在没有迭代循环的情况下将其缩减为单个方程式，那么您将获得比任何其他选项更多的性能。

变量预评估在循环范围内分割

2 个答案: