由直线代码中的指令引起的开销差异很大

时间:2016-09-01 22:52:33

标签: linux linux-kernel profiling perf

我试图理解Linux块层中[blk_account_io_completion][1]的开销。使用perf annotate我得到以下代码段(删节)。有人能否说明addtest指令与其执行的相邻指令相比具有此类开销的原因?

         :                      part_stat_add(cpu, part, sectors[rw], bytes >> 9);
    0.13 :        ffffffff813336eb:       movsxd r8,r8d
    0.00 :        ffffffff813336ee:       lea    rdx,[rax*8+0x0]
    0.00 :        ffffffff813336f6:       mov    rcx,QWORD PTR [rdi+0x210]
   72.04 :        ffffffff813336fd:       add    rcx,QWORD PTR [r8*8-0x7e2df6a0]
    0.22 :        ffffffff81333705:       add    QWORD PTR [rcx+rdx*1],rsi
    0.61 :        ffffffff81333709:       mov    eax,DWORD PTR [rdi+0x1f4]
   26.52 :        ffffffff8133370f:       test   eax,eax
    0.00 :        ffffffff81333711:       je     ffffffff81333733 <blk_account_io_completion+0x83>

1 个答案:

答案 0 :(得分:3)

一个可能的原因是当采样时指令指针恰好指向这些指令。典型的x86 CPU每个周期最多可以退出4条指令,但是当它这样做并且样本是令牌时,程序计数器将只指向一条指令,而不是所有这四条指令。

这是一个例子 - 见下文。带有一堆nop指令的简单普通循环。请注意时钟信号如何在此配置文件中分配,并且间隙中只有三条指令。这可能类似于您所看到的效果。

或者,可能是mov rcx,QWORD PTR [rdi+0x210]mov eax,DWORD PTR [rdi+0x1f4]经常错过缓存,其中花费的周期归因于下一条指令,例如here

       │    Disassembly of section .text:
       │
       │    00000000004004ed :
       │      push   %rbp
       │      mov    %rsp,%rbp
       │      movl   $0x0,-0x4(%rbp)
       │    ↓ jmp    25
 14.59 │ d:   nop
       │      nop
       │      nop
  0.03 │      nop
 14.58 │      nop
       │      nop
       │      nop
  0.08 │      nop
 13.89 │      nop
       │      nop
  0.01 │      nop
  0.08 │      nop
 13.99 │      nop
       │      nop
  0.01 │      nop
  0.05 │      nop
 13.92 │      nop
       │      nop
  0.01 │      nop
  0.07 │      nop
 14.44 │      addl   $0x1,-0x4(%rbp)
  0.33 │25:   cmpl   $0x3fffffff,-0x4(%rbp)
 13.90 │    ↑ jbe    d
       │      pop    %rbp
       │    ← retq