ARMv7使用的指令数

时间:2017-05-27 09:12:24

标签: arm cpu-architecture bare-metal cpu-speed

我试图弄清楚将使用多少CPU周期来执行延迟功能

delay:
 subs r0, #1
 bmi end_delay
 b delay
 end_delay:
 bx lr

我觉得直觉上每个指令应该使用1个CPU周期,所以如果我们从r0 = 4开始,那么需要11个CPU周期才能完成以下代码是正确的吗?

2 个答案:

答案 0 :(得分:0)

  

我觉得直觉上每个指令应该使用1个CPU周期,所以如果我们从r0 = 4开始,那么需要11个CPU周期才能完成以下代码是正确的吗?

鉴于大多数ARM CPU具有3-8个流水线级,很难说大多数指令需要1个CPU周期才能完成。理想情况下,在流水线型CPU中​​,应该有一条指令在每个时钟周期退出,但由于上面的代码具有分支语句,因此很难判断每条指令何时退出。原因是我们不知道如何处理分支,这取决于处理器设计中存在的分支预测算法。因此,如果预测是正确的,则不会在管道中插入任何气泡,但如果它被正确预测,那么它将取决于内部管道结构将插入多少气泡。对于理想的5级流水线,每次误预测都会插入2个气泡。但这又取决于内部微架构的实现。 因此,很难准确预测上述代码需要多少个周期。

答案 1 :(得分:0)

cortex-m与微芯片pic芯片(或z80和其他一些芯片)不同,您无法通过此指令集以这种方式创建可预测的延迟。你可以确保它会在一个时间点(时钟)处于或低位但不正常。

0000009c <hello>:
  9c:   3801        subs    r0, #1
  9e:   d1fd        bne.n   9c <hello>

你的循环在那里有一个分支决策,基本上有更多的指令和更多的路径,所以执行时间变化的机会变得更糟。

00000090 <delay>:
  90:   3801        subs    r0, #1
  92:   d400        bmi.n   96 <end_delay>
  94:   e7fc        b.n 90 <delay>

00000096 <end_delay>:

所以,如果我们专注于这三个指示。

某些cortex-ms有一个构建(逻辑)时间选项,每个指令或每个单词取出,cortex-m4文档说:

  

所有提取都是字宽的。

所以我们希望半字对齐不会影响性能。根据这些说明,我们不一定希望看到差异。对于全尺寸的手臂,提取是多个单词,因此您肯定会看到提取线(大小)影响。

执行在很大程度上取决于实施。 cortex-m只是手臂核心,芯片的其余部分来自芯片供应商,购买IP或内置或组合(很可能是后者)。 ARM不制造芯片(除了可能用于验证),他们制造出他们销售的IP。

芯片供应商确定闪存(和ram)实现,通常使用这些类型的芯片,闪存速度等于或低于cpu速度,这意味着它可能需要两个时钟来获取一条指令,这意味着你永远不会提供cpu尽可能快。有些人喜欢ST有他们放入的缓存,你不能(据我所知)关闭,所以很难看到这种效果(但仍然可能),我正在使用的特定芯片说:

  

8.2.3.1预取缓冲区Flash存储器控制器有一个预取缓冲区,当CPU频率较高时自动使用   超过40 MHz。在这种模式下,闪存的运行速度只有一半   系统时钟。预取缓冲区每个时钟取两个32位字   允许在代码处于没有等待状态的情况下获取指令   线性执行。获取缓冲区包括分支推测   识别分支并避免额外等待状态的机制   读下一个单词对。此外,短循环分支通常留在   缓冲区。结果,一些分支可以无需等待即可执行   状态。其他分支机构会产生一个等待状态。

当然像ST一样,他们并没有真正告诉你整个故事。所以我们进去尝试一下。如果需要,您可以使用调试计时器,但是systick运行相同的时钟并为您提供相同的结果

00000086 <test>:
  86:   f3bf 8f4f   dsb sy
  8a:   f3bf 8f6f   isb sy
  8e:   680a        ldr r2, [r1, #0]

00000090 <delay>:
  90:   3801        subs    r0, #1
  92:   d400        bmi.n   96 <end_delay>
  94:   e7fc        b.n 90 <delay>

00000096 <end_delay>:
  96:   680b        ldr r3, [r1, #0]
  98:   1ad0        subs    r0, r2, r3
  9a:   4770        bx  lr

所以我读了CCR和CPUID

00000200 CCR
410FC241 CPUID

只是因为。然后运行三次测试代码

00000015
00000015
00000015

这些数字是十六进制的,因此是21条指令。每次执行时间相同,因此没有缓存或分支预测缓存效果。我没有看到任何与皮质-m4相关的分支预测相关的其他皮质-ms确实有分支预测(可能只有m7)。我关闭了I和D缓存,它们当然会随着对齐而大大影响执行时间(并且该时间可能会随着应用程序的运行而变化)。

我更改了对齐方式(在此代码前添加或删除nops)

0000008a <delay>:
  8a:   3801        subs    r0, #1
  8c:   d400        bmi.n   90 <end_delay>
  8e:   e7fc        b.n 8a <delay>

它并没有影响执行时间。

AFAIK使用此处理器我们无法直接更改闪存等待状态设置它是基于时钟设置自动运行,因此以不同的时钟速度运行,高于40Mhz标记我得到

0000001E                                                                                         
0000001E                                                                                         
0000001E 

对于相同的机器代码,相同的对齐30个时钟而不是21个。

通常ram更快,没有等待状态(理解这些总线每次事务需要几个时钟,所以它不像过去那样,但是你仍然可以检测到延迟),所以在ram中运行这些指令应该告诉我们的东西

for(rb=0;rb<0x20;rb+=2)
{

    hexstrings(rb);
    ra=0x20001000+rb;
    PUT16(ra,0x680a); ra+=2;
    hexstrings(ra);
    PUT16(ra,0x3801); ra+=2;
    PUT16(ra,0xd400); ra+=2;
    PUT16(ra,0xe7fc); ra+=2;
    PUT16(ra,0x680b); ra+=2;
    PUT16(ra,0x1ad0); ra+=2;
    PUT16(ra,0x4770); ra+=2;

    PUT16(ra,0x46c0); ra+=2;
    PUT16(ra,0x46c0); ra+=2;
    PUT16(ra,0x46c0); ra+=2;
    PUT16(ra,0x46c0); ra+=2;
    PUT16(ra,0x46c0); ra+=2;
    PUT16(ra,0x46c0); ra+=2;
    hexstring(BRANCHTO(4,STCURRENT,0x20001001+rb)&STMASK);
}

这当然有趣......

00000000 20001002 00000026                                                                       
00000002 20001004 00000020                                                                       
00000004 20001006 00000026                                                                       
00000006 20001008 00000020                                                                       
00000008 2000100A 00000026                                                                       
0000000A 2000100C 00000020                                                                       
0000000C 2000100E 00000026                                                                       
0000000E 20001010 00000020                                                                       
00000010 20001012 00000026                                                                       
00000012 20001014 00000020                                                                       
00000014 20001016 00000026                                                                       
00000016 20001018 00000020                                                                       
00000018 2000101A 00000026                                                                       
0000001A 2000101C 00000020                                                                       
0000001C 2000101E 00000026                                                                       
0000001E 20001020 00000020 

首先是32或38个时钟,第二个是对齐效果

armv7-m CCR显示了一个分支预测位,但是trm和供应商文档没有显示它,因此它可能是一个通用的东西,并非所有核心都支持。

因此,对于特定的cortex-m4芯片,执行循环的时间在21到38个时钟之间,如果我愿意,我可能会让它变慢。我不认为我可以在这个筹码上降到11。

如果您正在进行i2c比特敲击,您可以使用类似这样的延迟,这将是正常工作,不会是最佳的,但会工作得很好。如果您需要在一个时间窗口内更精确,但不大于此时使用定时器(并理解轮询或中断您的准确性将有一些错误)如果定时器外围设备或其他可以生成您想要的信号然后得到一个时钟准确的波形(如果这是你的延迟)。

另一个皮质-m4预计会有不同的结果,我希望stm32能让sram与flash相同或更快,而不是像这种情况那样慢。如果您依靠其他人来设置芯片,那么您可以使用初始化代码来处理这些设置,这会影响执行时间。

修改

我不知道我的想法是针对一个armv7-m的cortex-m4,所以我没有使用树莓派2,但是有一个pi3,并且运行在aarch32模式,32位指令。我不知道这会让计时器运行然后启用缓存有多少工作。 pi用尽了dram,即使是裸露的金属也非常不一致。所以我想我会启用l1缓存,并且在第一次运行之后它应该全部在缓存中并且是一致的。现在我想到它有四个核心,每个都运行,不知道如何禁用它们,其他三个正在循环旋转等待邮箱寄存器告诉他们运行什么代码。也许我需要把它们分支到某个地方并且用完l1缓存...不确定l1是每个核心还是共享,我想我在某一点上看了。

无论如何都要测试的代码

000080c8 <COUNTER>:
    80c8:   ee192f1d    mrc 15, 0, r2, cr9, cr13, {0}

000080cc <delay>:
    80cc:   e2500001    subs    r0, r0, #1
    80d0:   4a000000    bmi 80d8 <end_delay>
    80d4:   eafffffc    b   80cc <delay>

000080d8 <end_delay>:
    80d8:   ee193f1d    mrc 15, 0, r3, cr9, cr13, {0}
    80dc:   e0430002    sub r0, r3, r2
    80e0:   e12fff1e    bx  lr

并且用于该对齐的穿孔线是第一列是r0通过,接下来的三个是三次运行,如果从先前运行到当前有一个增量的最后一列(r0中额外计数值的成本) )

00000000 0000000A 0000000A 0000000A 
00000001 00000014 00000014 00000014 0000000A 
00000002 0000001E 0000001E 0000001E 0000000A 
00000003 00000028 00000028 00000028 0000000A 
00000004 00000032 00000032 00000032 0000000A 
00000005 0000003C 0000003C 0000003C 0000000A 
00000006 00000046 00000046 00000046 0000000A 
00000007 00000050 00000050 00000050 0000000A 
00000008 0000005A 0000005A 0000005A 0000000A 
00000009 00000064 00000064 00000064 0000000A 
0000000A 0000006E 0000006E 0000006E 0000000A 
0000000B 00000078 00000078 00000078 0000000A 
0000000C 00000082 00000082 00000082 0000000A 
0000000D 0000008C 0000008C 0000008C 0000000A 
0000000E 00000096 00000096 00000096 0000000A 
0000000F 000000A0 000000A0 000000A0 0000000A 
00000010 000000AA 000000AA 000000AA 0000000A 
00000011 000000B4 000000B4 000000B4 0000000A 
00000012 000000BE 000000BE 000000BE 0000000A 
00000013 000000C8 000000C8 000000C8 0000000A 

然后使对齐检查更容易,最后我不需要做 让它为上面的代码尝试不同的对齐方式(第一列中的地址)和r0为四的结果。

00010000 00000032 00010004 0000002D 00010008 00000032 0001000C 0000002D

重复地址为0x101FC

如果我更改了编译测试中的对齐

000080cc <COUNTER>:
    80cc:   ee192f1d    mrc 15, 0, r2, cr9, cr13, {0}

000080d0 <delay>:
    80d0:   e2500001    subs    r0, r0, #1
    80d4:   4a000000    bmi 80dc <end_delay>
    80d8:   eafffffc    b   80d0 <delay>

000080dc <end_delay>:
    80dc:   ee193f1d    mrc 15, 0, r3, cr9, cr13, {0}
    80e0:   e0430002    sub r0, r3, r2
    80e4:   e12fff1e    bx  lr

然后它会快一点。

00000000 00000009 00000009 00000009 
00000001 00000012 00000012 00000012 00000009 
00000002 0000001B 0000001B 0000001B 00000009 
00000003 00000024 00000024 00000024 00000009 
00000004 0000002D 0000002D 0000002D 00000009 
00000005 00000036 00000036 00000036 00000009 
00000006 0000003F 0000003F 0000003F 00000009 
00000007 00000048 00000048 00000048 00000009 
00000008 00000051 00000051 00000051 00000009 
00000009 0000005A 0000005A 0000005A 00000009 
0000000A 00000063 00000063 00000063 00000009 
0000000B 0000006C 0000006C 0000006C 00000009 
0000000C 00000075 00000075 00000075 00000009 
0000000D 0000007E 0000007E 0000007E 00000009 
0000000E 00000087 00000087 00000087 00000009 
0000000F 00000090 00000090 00000090 00000009 
00000010 00000099 00000099 00000099 00000009 
00000011 000000A2 000000A2 000000A2 00000009 
00000012 000000AB 000000AB 000000AB 00000009 
00000013 000000B4 000000B4 000000B4 00000009 

如果我将其更改为函数调用

000080cc <COUNTER>:
    80cc:   e92d4001    push    {r0, lr}
    80d0:   ee192f1d    mrc 15, 0, r2, cr9, cr13, {0}
    80d4:   eb000003    bl  80e8 <delay>
    80d8:   ee193f1d    mrc 15, 0, r3, cr9, cr13, {0}
    80dc:   e8bd4001    pop {r0, lr}
    80e0:   e0430002    sub r0, r3, r2
    80e4:   e12fff1e    bx  lr

000080e8 <delay>:
    80e8:   e2500001    subs    r0, r0, #1
    80ec:   4a000000    bmi 80f4 <end_delay>
    80f0:   eafffffc    b   80e8 <delay>

000080f4 <end_delay>:
    80f4:   e12fff1e    bx  lr

00000000 0000001A 0000001A 0000001A 
00000001 00000023 00000023 00000023 00000009 
00000002 0000002C 0000002C 0000002C 00000009 
00000003 00000035 00000035 00000035 00000009 
00000004 0000003E 0000003E 0000003E 00000009 
00000005 00000047 00000047 00000047 00000009 
00000006 00000050 00000050 00000050 00000009 
00000007 00000059 00000059 00000059 00000009 
00000008 00000062 00000062 00000062 00000009 
00000009 0000006B 0000006B 0000006B 00000009 
0000000A 00000074 00000074 00000074 00000009 
0000000B 0000007D 0000007D 0000007D 00000009 
0000000C 00000086 00000086 00000086 00000009 
0000000D 0000008F 0000008F 0000008F 00000009 
0000000E 00000098 00000098 00000098 00000009 
0000000F 000000A1 000000A1 000000A1 00000009 
00000010 000000AA 000000AA 000000AA 00000009 
00000011 000000B3 000000B3 000000B3 00000009 
00000012 000000BC 000000BC 000000BC 00000009 
00000013 000000C5 000000C5 000000C5 00000009 

每个计数的成本是相同的,但是呼叫开销更昂贵

这允许我只是为了好玩而使用拇指模式,以避免链接器添加的模式更改我使它更快(并且一致)。

000080cc <COUNTER>:
    80cc:   e92d4001    push    {r0, lr}
    80d0:   e59f103c    ldr r1, [pc, #60]   ; 8114 <edel+0x2>
    80d4:   e59fe03c    ldr lr, [pc, #60]   ; 8118 <edel+0x6>
    80d8:   ee192f1d    mrc 15, 0, r2, cr9, cr13, {0}
    80dc:   e12fff11    bx  r1

000080e0 <here>:
    80e0:   ee193f1d    mrc 15, 0, r3, cr9, cr13, {0}
    80e4:   e8bd4001    pop {r0, lr}
    80e8:   e0430002    sub r0, r3, r2
    80ec:   e12fff1e    bx  lr

000080f0 <delay>:
    80f0:   e2500001    subs    r0, r0, #1
    80f4:   4a000000    bmi 80fc <end_delay>
    80f8:   eafffffc    b   80f0 <delay>

000080fc <end_delay>:
    80fc:   e12fff1e    bx  lr
    8100:   e1a00000    nop         ; (mov r0, r0)
    8104:   e1a00000    nop         ; (mov r0, r0)
    8108:   e1a00000    nop         ; (mov r0, r0)

0000810c <del>:
    810c:   3801        subs    r0, #1
    810e:   d400        bmi.n   8112 <edel>
    8110:   e7fc        b.n 810c <del>

00008112 <edel>:
    8112:   4770        bx  lr

00000000 000000F4 0000001B 0000001B 
00000001 00000024 00000024 00000024 00000009 
00000002 0000002D 0000002D 0000002D 00000009 
00000003 00000036 00000036 00000036 00000009 
00000004 0000003F 0000003F 0000003F 00000009 
00000005 00000048 00000048 00000048 00000009 
00000006 00000051 00000051 00000051 00000009 
00000007 0000005A 0000005A 0000005A 00000009 
00000008 00000063 00000063 00000063 00000009 
00000009 0000006C 0000006C 0000006C 00000009 
0000000A 00000075 00000075 00000075 00000009 
0000000B 0000007E 0000007E 0000007E 00000009 
0000000C 00000087 00000087 00000087 00000009 
0000000D 00000090 00000090 00000090 00000009 
0000000E 00000099 00000099 00000099 00000009 
0000000F 000000A2 000000A2 000000A2 00000009 
00000010 000000AB 000000AB 000000AB 00000009 
00000011 000000B4 000000B4 000000B4 00000009 
00000012 000000BD 000000BD 000000BD 00000009 
00000013 000000C6 000000C6 000000C6 00000009

这种对齐

0000810e <del>:
    810e:   3801        subs    r0, #1
    8110:   d400        bmi.n   8114 <edel>
    8112:   e7fc        b.n 810e <del>

00008114 <edel>:
    8114:   4770        bx  lr


00000000 0000007E 0000001C 0000001C 
00000001 00000026 00000026 00000026 0000000A 
00000002 00000030 00000030 00000030 0000000A 
00000003 0000003A 0000003A 0000003A 0000000A 
00000004 00000044 00000044 00000044 0000000A 
00000005 0000004E 0000004E 0000004E 0000000A 
00000006 00000058 00000058 00000058 0000000A 
00000007 00000062 00000062 00000062 0000000A 
00000008 0000006C 0000006C 0000006C 0000000A 
00000009 00000076 00000076 00000076 0000000A 
0000000A 00000080 00000080 00000080 0000000A 
0000000B 0000008A 0000008A 0000008A 0000000A 
0000000C 00000094 00000094 00000094 0000000A 
0000000D 0000009E 0000009E 0000009E 0000000A 
0000000E 000000A8 000000A8 000000A8 0000000A 
0000000F 000000B2 000000B2 000000B2 0000000A 
00000010 000000BC 000000BC 000000BC 0000000A 
00000011 000000C6 000000C6 000000C6 0000000A 
00000012 000000D0 000000D0 000000D0 0000000A 
00000013 000000DA 000000DA 000000DA 0000000A 

所以在这个处理器的某个理想世界中假设缓存命中了延迟代码

00000004 00000032 00000032 00000032 0000000A 
00000004 0000002D 0000002D 0000002D 00000009 
00000004 0000003E 0000003E 0000003E 00000009 
00000004 0000003F 0000003F 0000003F 00000009 
00000004 00000044 00000044 00000044 0000000A 

在0x2D和0x44时钟之间以r0 = 4

运行该循环

实际上在这个平台上没有启用缓存和/或如果你得到缓存未命中,你会看到什么。

00000000 0000030B 000002B7 000002ED 
00000001 0000035B 00000389 000003E9 
00000002 000003FB 00000439 0000041B 
00000003 0000058F 000004E7 0000055B 
00000004 000005FF 0000069D 000006D1 
00000005 00000745 00000733 000006F7 
00000006 00000883 00000817 00000801 
00000007 00000873 00000853 0000089B 
00000008 00000923 00000B05 0000092F 
00000009 00000A3F 000009A9 00000B4D 
0000000A 00000B79 00000BA9 00000C57 
0000000B 00000C21 00000D13 00000B51 
0000000C 00000C0B 00000E91 00000DE9 
0000000D 00000D97 00000E0D 00000E81 
0000000E 00000E5B 0000100B 00000F25 
0000000F 00001097 00001095 00000F37 
00000010 000010DB 000010FD 0000118B 
00000011 00001071 0000114D 0000123F 
00000012 000012CF 0000126D 000011DB 
00000013 0000140D 0000143D 0000141B 
000002B7 0000143D 

r0 = 4行

00000004 000005FF 0000069D 000006D1 

这就是很多cpu计数...

希望我把这个话题放到床上。虽然有趣的是尝试假设代码运行速度有多快或有多少计数等等......在这些类型的处理器,流水线,高速缓存,分支预测,复杂的系统总线上,使用通用核心并不是那么简单。各种芯片实现,其中芯片供应商管理与处理器IP供应商代码分开的内存/闪存。

我没有在第二个实验中弄乱分支预测,如果我这样做,那么对齐就不会那么一致,这取决于如何实现分支预测,它可以根据分支相对于获取线的位置改变其有用性当分支预测器确定它不需要执行该提取和/或启动分支提取时,下一次提取是否已经开始或是某种方式,在这种情况下,分支是提前两个,因此您可能无法使用此代码看到它,你可能需要在它们之间插入一些nops,以便bmi目的地位于一个单独的提取行中(为了看到差异)。

这是操作的简单方法,使用相同的机器代码序列,并通过我们看到的内容查看执行时间的变化。在0x3F和0x6D1之间,对于相同的机器代码,最快和最慢之间的差异超过27倍。通过一条指令更改代码的对齐方式(在不相关的代码中的其他地方有一个或多一个来自先前构建的指令)是5个计数差异。

公平地说,测试结束时的mrc可能是时间的一部分

000080c8 <COUNTER>:
    80c8:   ee192f1d    mrc 15, 0, r2, cr9, cr13, {0}
    80cc:   ee193f1d    mrc 15, 0, r3, cr9, cr13, {0}
    80d0:   e0430002    sub r0, r3, r2
    80d4:   e12fff1e    bx  lr

导致计数为1,两者都对齐。所以并不能保证测量中只有一个误差计数,但可能不是十几个。

无论如何,我希望这有助于你理解。