Question

我运行了一个OpenMP程序来执行Jacobi方法，它运行得非常好，2个线程执行略超过2x 1线程，4个线程比1个线程快2倍。我觉得一切都很完美......直到我准确地达到了20,22和24个线程。我一直把它分解，直到我有这个简单的程序

#include <stdio.h>
#include <omp.h>

int main(int argc, char *argv[]) {
    int i, n, maxiter, threads, nsquared, execs = 0;
    double begin, end;

    if (argc != 4) {
        printf("4 args\n");
        return 1;
    }

    n = atoi(argv[1]);
    threads = atoi(argv[2]);
    maxiter = atoi(argv[3]);
    omp_set_num_threads(threads);
    nsquared = n * n;

    begin = omp_get_wtime();
    while (execs < maxiter) {

#pragma omp parallel for
        for (i = 0; i < nsquared; i++) {
            //do nothing
        }
        execs++;
    }
    end = omp_get_wtime();

    printf("%f seconds\n", end - begin);

    return 0;
}

以下是不同线程编号的输出：

./a.out 500 1 1000
    0.6765799 seconds

./a.out 500 8 1000
    0.0851808 seconds

./a.out 500 20 1000
    19.5467 seconds

./a.out 500 22 1000
    21.2296 seconds

./a.out 500 24 1000
    20.1268 seconds

./a.out 500 26 1000
    0.1363 seconds

我会理解，如果它继续在20之后的所有线程中都会出现大幅放缓，因为我认为这将是线程开销（尽管我觉得它有点极端）。但即使改变n也会使20,22和24的时间保持不变。将maxiter更改为100会将其缩小到大约1.9秒，2.2秒......，这意味着单独创建线程会导致减速，而不是内部迭代。

这是否与操作系统试图创建它没有的线程有关？如果它意味着什么，omp_get_num_procs()返回24，它在Intel Xeon处理器上（所以24包括超线程？）

感谢您的帮助。

Answer 1

我怀疑问题是由于一个核心上的一个线程以100％运行。由于超线程，这实际上消耗了两个线程。您需要找到导致此问题的核心并尝试排除它。让我们假设它的线程为20和21（你说它在你的问题中从20开始 - 你确定这个吗？）。试试这样的事情

GOMP_CPU_AFFINITY = 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 22 23

我以前从未使用过这个，所以你可能需要阅读一下才能做到这一点。 OpenMP and CPU affinity您可能需要首先列出偶数线程然后奇数（例如0 2 4 ... 22 1 3 5 ...）在这种情况下我不确定要排除什么（编辑：解决方案是：export GOMP_CPU_AFFINITY="0-17 20-24。见评论。）

至于为什么26个线程没有问题我只能猜测。 OpenMP可以选择将线程迁移到不同的核心。您的系统可以运行24个逻辑线程。我从来没有找到将线程数设置为大于逻辑线程数的值的理由（实际上在我的矩阵乘法代码中，我将线程数设置为物理内核数，因为超线程会导致更糟糕的结果）。也许当您将线程数设置为大于逻辑核心数的值时，OpenMP决定在选择时迁移线程是可以的。如果它将你的线程从100％运行的核心迁移出去，那么问题就会消失。您可以通过使用OMP_PROC_BIND

禁用线程迁移来测试此问题

OpenMP特定线程数急剧减速

1 个答案: