Question

我有以下几行代码，我试图并行运行

void optimized(int data_len, unsigned int * input_array, unsigned int * output_array, unsigned int * filter_list, int filter_len) {

    #pragma omp parallel for
    for (int j = 0; j < filter_len; j++) {
        for (int i = 0; i < data_len; i++) {
            if (input_array[i] == filter_list[j]) {
              output_array[i] = filter_list[j];
            }
        }
    }
}

只是把pragma语句真的做了奇迹，但我想进一步减少这段代码的运行时间。我已经尝试了很多东西，从数组填充到折叠循环到创建任务，但到目前为止，似乎唯一可行的是循环展开。有没有人对我可能因为进一步加快这段代码而有什么建议？

Answer 1

您正在进行纯内存访问。这受到机器内存带宽的限制。多线程对你没什么帮助。 gcc -O2已经为您提供了SSE指令优化。因此，直接使用英特尔指令可能无济于事。您可以尝试一次检查4 int，因为SSE支持128注册（请参阅https://gcc.gnu.org/onlinedocs/gcc-4.4.5/gcc/X86-Built_002din-Functions.html和google以获取一些示例）如果可以的话，还可以通过使用short而不是int来减少数据量。

OMP使用if语句优化嵌套循环

1 个答案: