我正在尝试使我的串行程序与openMP并行。这是我在其中具有多个内部“ #pragma omp for”部分的并行区域的代码。在串行版本中,我有一个函数fftw_shift(),其中也包含“ for”循环。
问题是如何正确重写fftw_shift()函数,以便外部并行区域中已存在的线程可以在内部嵌套“ for”循环而没有嵌套线程。
我不确定自己的实现是否正确。有一种方法可以在并行区域中内联整个函数,但是我正在尝试实现在上述情况下如何处理它。
int fftw_shift(fftw_complex *pulse, fftw_complex *shift_buf, int
array_size)
{
int j = 0; //counter
if ((pulse != nullptr) || (shift_buf != nullptr)){
if (omp_in_parallel()) {
//shift the array
#pragma omp for private(j) //shedule(dynamic)
for (j = 0; j < array_size / 2; j++) {
//left to right
shift_buf[(array_size / 2) + j][REAL] = pulse[j][REAL]; //real
shift_buf[(array_size / 2) + j][IMAG] = pulse[j][IMAG]; //imaginary
//right to left
shift_buf[j][REAL] = pulse[(array_size / 2) + j][REAL]; //real
shift_buf[j][IMAG] = pulse[(array_size / 2) + j][IMAG]; //imaginary
}
//rewrite the array
#pragma omp for private(j) //shedule(dynamic)
for (j = 0; j < array_size; j++) {
pulse[j][REAL] = shift_buf[j][REAL]; //real
pulse[j][IMAG] = shift_buf[j][IMAG]; //imaginary
}
return 0;
}
}
....
#pragma omp parallel firstprivate(x, phase) if(array_size >=
OMP_THREASHOLD)
{
// First half-step
#pragma omp for schedule(dynamic)
for (x = 0; x < array_size; x++) {
..
}
// Forward FTW
fftw_shift(pulse_x, shift_buf, array_size);
#pragma omp master
{
fftw_execute(dft);
}
#pragma omp barrier
fftw_shift(pulse_kx, shift_buf, array_size);
...
}
答案 0 :(得分:1)
如果您从fftw_shift
区域调用parallel
-但没有工作共享结构(即不在parallel for
中),那么您只需使用omp for
就像您在平行区域内一样。这称为孤立指令。
但是,您的循环仅复制数据,因此不要指望根据您的系统实现完美的加速。