我正在研究与libgomp相关联的OpenMP程序的执行流程。它使用#pragma omp parallel for
。我已经知道这个构造变成了对GOMP_parallel
函数的调用,其实现如下:
void
GOMP_parallel (void (*fn) (void *), void *data,
unsigned num_threads, unsigned int flags)
{
num_threads = gomp_resolve_num_threads (num_threads, 0);
gomp_team_start (fn, data, num_threads, flags, gomp_new_team (num_threads));
fn (data);
ialias_call (GOMP_parallel_end) ();
}
在libgomp上执行objdump -d
时,GOMP_parallel
显示为:
000000000000bc80 <GOMP_parallel@@GOMP_4.0>:
bc80: 41 55 push %r13
bc82: 41 54 push %r12
bc84: 41 89 cd mov %ecx,%r13d
bc87: 55 push %rbp
bc88: 53 push %rbx
bc89: 48 89 f5 mov %rsi,%rbp
bc8c: 48 89 fb mov %rdi,%rbx
bc8f: 31 f6 xor %esi,%esi
bc91: 89 d7 mov %edx,%edi
bc93: 48 83 ec 08 sub $0x8,%rsp
bc97: e8 d4 fd ff ff callq ba70 <GOMP_ordered_end@@GOMP_1.0+0x70>
bc9c: 41 89 c4 mov %eax,%r12d
bc9f: 89 c7 mov %eax,%edi
bca1: e8 ca 37 00 00 callq f470 <omp_in_final@@OMP_3.1+0x2c0>
bca6: 44 89 e9 mov %r13d,%ecx
bca9: 44 89 e2 mov %r12d,%edx
bcac: 48 89 ee mov %rbp,%rsi
bcaf: 48 89 df mov %rbx,%rdi
bcb2: 49 89 c0 mov %rax,%r8
bcb5: e8 16 39 00 00 callq f5d0 <omp_in_final@@OMP_3.1+0x420>
bcba: 48 89 ef mov %rbp,%rdi
bcbd: ff d3 callq *%rbx
bcbf: 48 83 c4 08 add $0x8,%rsp
bcc3: 5b pop %rbx
bcc4: 5d pop %rbp
bcc5: 41 5c pop %r12
bcc7: 41 5d pop %r13
bcc9: e9 32 ff ff ff jmpq bc00 <GOMP_parallel_end@@GOMP_1.0>
bcce: 66 90 xchg %ax,%ax
首先,例如,GOMP_ordered_end
的源代码中没有对GOMP_parallel
的任何调用。其次,该功能包括:
void
GOMP_ordered_end (void)
{
}
根据objdump输出,此函数从ba00
开始,在bbbd
结束。怎么能在一个空的函数中有如此多的代码呢?顺便说一下,libgomp的源代码中有注释说它只应该在使用ORDERED结构时出现(顾名思义),这不是我测试的情况。
最后,对我来说主要关注的是:为什么源代码与反汇编有很大不同?例如,为什么在汇编中没有提到gomp_team_start
?
系统有 gcc版本5.4.0
答案 0 :(得分:3)
根据objdump输出,此函数从ba00开始,在bbbd结束。 怎么会在一个空的函数中有如此多的代码呢?
函数本身很小但是GCC只是使用了一些额外的字节来对齐下一个函数并存储一些静态数据(很可能被这个文件中的其他函数使用)。这是我在本地ordered.o
中看到的内容:
00000000000003b0 <GOMP_ordered_end>:
3b0: f3 c3 repz retq
3b2: 66 66 66 66 66 2e 0f data32 data32 data32 data32 nopw %cs:0x0(%rax,%rax,1)
3b9: 1f 84 00 00 00 00 00
首先,例如,在GOMP_parallel的源代码中没有对GOMP_ordered_end的任何调用。
不要在汇编代码中被GOMP_ordered_end@@GOMP_1.0+0x70
标记分心。它只是说这调用了一些本地库函数(objdump没有找到任何符号信息)恰好位于GOMP_ordered_end
之后的112个字节。这很可能是gomp_resolve_num_threads
。
例如,为什么组装中没有提到gomp_team_start?
嗯,这看起来非常像:
bcb5: e8 16 39 00 00 callq f5d0 <omp_in_final@@OMP_3.1+0x420>