Question

我使用OpenMP测试一些代码。这是：

#include <chrono>
#include <iostream>
#include <omp.h>

#define NUM_THREADS 8
#define ARR_SIZE 10000

class A {
private: 
    int a[ARR_SIZE];
public:
    A() {
        for (int i = 0; i < ARR_SIZE; i++)
            a[i] = i;
    }
// <<-----------MAIN CODE HERE--------------->
    void fn(A &o1, A &o2) {
        int some = 0;
        #pragma omp parallel num_threads(NUM_THREADS)
        {
            #pragma omp for reduction(+:some)
            for (int i = 0; i < ARR_SIZE; i++) {
                for (int j = 0; j < ARR_SIZE; j++)
                    some += o1.a[i] * o2.a[j];
            }
        }
        std::cout << some <<std::endl;
    }
};

int main() {
    A a,b,c;
    auto start = std::chrono::high_resolution_clock::now();
    c.fn(a,b);
    auto end = std::chrono::high_resolution_clock::now();
    std::chrono::duration<double> elapsed = end - start;
    std::cout << elapsed.count();
}

执行时间：

1个帖子：0.233663秒
2个主题：0.12449秒
4个主题：0.0665889秒
8个主题：0.0643735秒

如您所见，4到8个线程执行几乎没有区别。这种行为的原因是什么？如果你在你的机器上尝试这个代码，那也很好。）。

P.S。我的处理器：

Model:               Intel(R) Core(TM) i7-4710HQ CPU @ 2.50GHz 
CPU(s):              8
On-line CPU(s) list: 0-7
Thread(s) per core:  2
Core(s) per socket:  4
Socket(s):           1

Answer 1

你有4个物理核心。 promise of hyperthreading是每个核心都可以“思考”两个任务，并且当它们被阻塞时会动态地在两个任务之间（例如，如果它需要等待内存操作完成）。从理论上讲，这意味着等待某些操作完成所浪费的时间减少了。但是，在实践中，实际的性能提升往往没有接近通过将内核数量增加一倍而获得的2倍的改进。改善通常在0到0.3倍之间，有时甚至会导致减速。

4个线程本质上是您正在使用的计算机的有用线程上限。具有8个物理内核的计算机可能会获得您期望的加速。

使用4和8个线程运行的等时执行

1 个答案: