数组遍历:并行性能比非并行性能慢

时间:2015-06-04 20:42:43

标签: c# performance parallel-processing parallel.for

在我的程序中,我想确定有多少数字有9位数字,很多数字有8位数等等,这个循环:

for (int i = 0; i < 60000000; i++)
        {
            if (a[i] >= 1000000000) { p[10] += 1; }
            else if (a[i] >= 100000000) { p[9] += 1; }
            else if (a[i] >= 10000000) { p[8] += 1;  }
            else if (a[i] >= 1000000) { p[7] += 1;  }
            else if (a[i] >= 100000) { p[6] += 1;  }
            else if (a[i] >= 10000) { p[5] += 1; }
            else if (a[i] >= 1000) { p[4] += 1;  }
            else if (a[i] >= 100) { p[3] += 1;  }
            else if (a[i] >= 10) { p[2] += 1;  }
            else { p[1] += 1; }
        }

我将循环并行化:

void partiton(int f, int l, int[] p)
    {
        Parallel.Invoke(()=>calc(f,l/2,p),()=>calc(l/2,l,p));
    }

    void calc(int f, int l, int[] p)
    {
        for (int i = f; i < l; i++)
        {
            if (a[i] >= 1000000000) { p[10] += 1; }
            else if (a[i] >= 100000000) { p[9] += 1; }
            else if (a[i] >= 10000000) { p[8] += 1;  }
            else if (a[i] >= 1000000) { p[7] += 1;  }
            else if (a[i] >= 100000) { p[6] += 1;  }
            else if (a[i] >= 10000) { p[5] += 1; }
            else if (a[i] >= 1000) { p[4] += 1;  }
            else if (a[i] >= 100) { p[3] += 1;  }
            else if (a[i] >= 10) { p[2] += 1;  }
            else { p[1] += 1; }
        }
    }
private void button1_Click(object sender, EventArgs e)
    {
        Stopwatch w = new Stopwatch();
        w.Restart();
        int f = 0;
        int l = 60000000;
        Parallel.Invoke(() => calc(f, l/2, p), () => calc(l/2, l, p));
        w.Stop();
        label1.Text = w.Elapsed.ToString();

    }

但基准是: 顺序:0.3834 平行:0.6864

为什么并行代码更慢?我的代码有问题吗?我的cpu是AMD Phenom™II X4。型号,955。

2 个答案:

答案 0 :(得分:4)

一切都在变数中。

以您的p对象为例。您将相同的p对象传递给两个线程。现在,我不确定Parallel.Invoke是否能够检测到这一点,因此是连续执行它们(虽然有很大的开销),但我知道如果它没有检测到这一点,那么你有一个很多尝试在同一个线程中读取/写入相同的值。

现在,我使用您的代码作为基础构建了一个小的具体示例,这里是它的副本。 (粘贴到任何新的控制台项目中,将_Main重命名为Main并按您认为合适的方式运行。)

static int[] a = new int[100000000];
static void calc(int f, int l, int[] p, int[] a)
{
    for (int i = f; i < l; i++)
    {
        if (a[i] >= 1000000000) { p[10] += 1; }
        else if (a[i] >= 100000000) { p[9] += 1; }
        else if (a[i] >= 10000000) { p[8] += 1; }
        else if (a[i] >= 1000000) { p[7] += 1; }
        else if (a[i] >= 100000) { p[6] += 1; }
        else if (a[i] >= 10000) { p[5] += 1; }
        else if (a[i] >= 1000) { p[4] += 1; }
        else if (a[i] >= 100) { p[3] += 1; }
        else if (a[i] >= 10) { p[2] += 1; }
        else { p[1] += 1; }
    }
}
public static void _Main(string[] args)
{
    for (int i = 0; i < a.Length; i++)
    {
        a[i] = i;
    }

    int f = 0;
    int l = a.Length;
    int[] p = new int[10];
    int[] p1 = new int[10];
    int[] p2 = new int[10];
    int[] p3 = new int[10];
    int[] p4 = new int[10];

    int[] a1 = new int[l / 2];
    int[] a2 = new int[l / 2];

    int[] a11 = new int[l / 4];
    int[] a12 = new int[l / 4];
    int[] a13 = new int[l / 4];
    int[] a14 = new int[l / 4];

    for (int i = 0; i < a.Length; i++)
        if (i >= l / 2)
            a2[i - l / 2] = a[i];
        else
            a1[i] = a[i];

    for (int i = 0; i < a.Length; i++)
        if (i >= l / 4 * 3)
            a14[i - l / 4 * 3] = a[i];
        else if (i >= l / 4 * 2)
            a13[i - l / 4 * 2] = a[i];
        else if (i >= l / 4 * 1)
            a12[i - l / 4] = a[i];
        else
            a14[i] = a[i];

    int rc = 5;
    for (int d = 0; d < rc; d++)
    {
        Stopwatch w = new Stopwatch();
        w.Start();
        Parallel.Invoke(() => calc(f, l / 2, p1, a1), () => calc(f, l / 2, p2, a2));
        w.Stop();
        Console.WriteLine("Attempt {0}/{1}: {2}", 1, d, w.ElapsedMilliseconds);
        w.Reset();
        w.Start();
        Parallel.Invoke(() => calc(f, l / 4, p1, a11), () => calc(f, l / 4, p2, a12), () => calc(f, l / 4, p3, a13), () => calc(f, l / 4, p4, a14));
        w.Stop();
        Console.WriteLine("Attempt {0}/{1}: {2}", 2, d, w.ElapsedMilliseconds);
        w.Reset();
        w.Start();
        Parallel.Invoke(() => calc(f, l / 2, p, a), () => calc(l / 2, l, p, a));
        w.Stop();
        Console.WriteLine("Attempt {0}/{1}: {2}", 3, d, w.ElapsedMilliseconds);
        w.Reset();
        w.Start();
        calc(f, l, p, a);
        w.Stop();
        Console.WriteLine("Attempt {0}/{1}: {2}", 4, d, w.ElapsedMilliseconds);
    }
}

我确信我可以运行更多优化。 (例如,将if转换为while循环。)我也无法保证其准确性。我只是接受了你的逻辑并采用了适当的调试。

但是当我在我的电脑上运行这个确切的例子时,我得到了以下结果:

  1. 尝试1平均为327.8ms。此尝试会将ap变量拆分为两个单独的变量。
  2. 尝试2平均花费306毫秒。此尝试会将ap变量分为四个单独的变量。
  3. 尝试3平均耗时703毫秒。这与你正在做的完全相同。 (虽然在calc方法上有一个局部变量。
  4. 尝试4平均为347.6毫秒。这是同步运行calc方法。
  5. 为什么这么大的差异?尝试1和2将处理后的数据拆分为不需要线程同步的变量,而Attempt 3强制两个线程使用相同的变量,创建冲突,并且正如Ron Beyer所说,上下文切换。

    基本上,如果您要尝试并行写入相同的任何,您应该本地化每个线程正在编写的数据并最终合并更改。

答案 1 :(得分:1)

  • 此代码不会为您提供正确的数字,因为它会在没有同步的情况下从多个线程增加相同的变量。当不同的CPU核心在同一个变量上工作时,每个核心都有自己的版本,并且此版本的修改不会立即流向其他缓存。因此,其他核心适用于旧版本。例如,一个核心可能已经将p [0]从0增加到1,但另一个核心仍然认为它是0.所以当它增加它时,该值再次变为1。稍后这个1将出现在主存储器而不是2。
  • 要回答您的问题,问题是您使用来自两个线程的相同内存块,并且会降低内存访问速度。数据通常被缓存,但是当一个内核写入内存区域时,其他内核迟早会检测到这一点,并且需要从主内存重新加载它,这很慢。 (并且迟早对你来说很重要,它不会立即发生,所以你需要同步,这使你在做正确的事情时速度更慢)。由于这些重新获取,多线程版本较慢。

当您尝试制作多线程算法时,您需要尝试按照他们不使用共享内存的方式分离任务。作为一种微优化 - 这是不好的 - 您可以尝试以不相邻的方式分配内存,否则前面提到的缓存问题会降低处理速度。