x86-64哪个更快,imm64或m64?

时间:2017-09-26 18:14:45

标签: assembly optimization x86 x86-64 micro-optimization

经过大约100亿次测试后,如果imm64比AMD64的m64快0.1纳秒,m64似乎更快,但我真的不明白。以下代码中val_ptr的地址不是立即值吗?

# Text section
.section __TEXT,__text,regular,pure_instructions
# 64-bit code
.code64
# Intel syntax
.intel_syntax noprefix
# Target macOS High Sierra
.macosx_version_min 10,13,0

# Make those two test functions global for the C measurer
.globl _test1
.globl _test2

# Test 1, imm64
_test1:
  # Move the immediate value 0xDEADBEEFFEEDFACE to RAX (return value)
  movabs rax, 0xDEADBEEFFEEDFACE
  ret
# Test 2, m64
_test2:
  # Move from the RAM (val_ptr) to RAX (return value)
  mov rax, qword ptr [rip + val_ptr]
  ret
# Data section
.section __DATA,__data
val_ptr:
  .quad 0xDEADBEEFFEEDFACE

测量代码为:

#include <stdio.h>            // For printf
#include <stdlib.h>           // For EXIT_SUCCESS
#include <math.h>             // For fabs
#include <stdint.h>           // For uint64_t
#include <stddef.h>           // For size_t
#include <string.h>           // For memset
#include <mach/mach_time.h>   // For time stuff

#define FUNCTION_COUNT  2     // Number of functions to test
#define TEST_COUNT      0x10000000  // Number of times to test each function

// Type aliases
typedef uint64_t rettype_t;
typedef rettype_t(*function_t)();

// External test functions (defined in Assembly)
rettype_t test1();
rettype_t test2();

// Program entry point
int main() {

  // Time measurement stuff
  mach_timebase_info_data_t info;
  mach_timebase_info(&info);

  // Sums to divide by the test count to get average
  double sums[FUNCTION_COUNT];

  // Initialize sums to 0
  memset(&sums, 0, FUNCTION_COUNT * sizeof (double));

  // Functions to test
  function_t functions[FUNCTION_COUNT] = {test1, test2};

  // Useless results (should be 0xDEADBEEFFEEDFACE), but good to have
  rettype_t results[FUNCTION_COUNT];

  // Function loop, may get unrolled based on optimization level
  for (size_t test_fn = 0; test_fn < FUNCTION_COUNT; test_fn++) {
    // Test this MANY times
    for (size_t test_num = 0; test_num < TEST_COUNT; test_num++) {
      // Get the nanoseconds before the action
      double nanoseconds = mach_absolute_time();
      // Do the action
      results[test_fn] = functions[test_fn]();
      // Measure the time it took
      nanoseconds = mach_absolute_time() - nanoseconds;

      // Convert it to nanoseconds
      nanoseconds *= info.numer;
      nanoseconds /= info.denom;

      // Add the nanosecond count to the sum
      sums[test_fn] += nanoseconds;
    }
  }
  // Compute the average
  for (size_t i = 0; i < FUNCTION_COUNT; i++) {
    sums[i] /= TEST_COUNT;
  }

  if (FUNCTION_COUNT == 2) {
    // Print some fancy information
    printf("Test 1 took %f nanoseconds average.\n", sums[0]);
    printf("Test 2 took %f nanoseconds average.\n", sums[1]);
    printf("Test %d was faster, with %f nanoseconds difference\n", sums[0] < sums[1] ? 1 : 2, fabs(sums[0] - sums[1]));
  } else {
    // Else, just print something
    for (size_t fn_i = 0; fn_i < FUNCTION_COUNT; fn_i++) {
      printf("Test %zu took %f clock ticks average.\n", fn_i + 1, sums[fn_i]);
    }
  }

  // Everything went fine!
  return EXIT_SUCCESS;
}

那么,哪个真的最快,m64imm64

顺便说一句,我使用的是英特尔酷睿i7 Ivy Bridge和DDR3内存。我正在运行macOS High Sierra。

编辑:我插入了ret条指令,现在imm64更快了。

1 个答案:

答案 0 :(得分:4)

您不会显示您测试过的实际循环,也不会说明您测量时间的方式。显然你测量的是挂钟时间,而不是核心时钟周期(带有性能计数器)。因此,您的测量噪声源包括涡轮/节能以及与另一个逻辑线程共享物理内核(在i7上)。

在英特尔IvyBridge上:

movabs rax, 0xDEADBEEFFEEDFACE是ALU指令

  • 占用10个字节的代码大小(根据周围的代码可能会或可能不重要)。
  • 对任何ALU端口(p0,p1或p5)解码为1 uop。 (最大吞吐量=每时钟3个)
  • 在uop缓存中占用2个条目(由于64位立即数),需要2个周期才能从uop缓存中读取。 (因此,从循环缓冲区运行是前端吞吐量的一个重要优势,如果这是包含此代码的代码中的瓶颈)。

mov rax, [RIP + val_ptr]是一个加载

  • 需要7个字节(REX +操作码+ modrm + rel32)
  • 对于任一装载端口(p2或p3),
  • 解码为1 uop。 (最大吞吐量=每时钟2个)
  • 适合uop缓存中的1个条目(没有立即数和32或32个小地址偏移量)。
  • 如果负载在页面边界上分割,
  • 运行速度会慢得多,即使在Skylake上也是如此。
  • 第一次可能会错过缓存。

来源:Agner Fog's microarch pdf and instruction tables。有关uop-cache的信息,请参见表9.1。另请参阅代码wiki中的其他效果链接。

编译器通常选择使用mov r64, imm64生成64位常量。 (相关:What are the best instruction sequences to generate vector constants on the fly?,但在实践中,那些从未出现过标量整数,因为它有no short single-instruction way to get a 64-bit -1。)

这通常是正确的选择,尽管在长期运行的循环中,您希望常量在缓存中保持热,但从.rodata加载它可能是一个胜利。特别是如果它允许您执行类似and rax, [constant]而不是movabs r8, imm64 / and rax, r8的操作。

If your 64-bit constant is an address,如果可能,请使用RIP相对lea。 NASM语法中的lea rax, [rel my_symbol],AT&amp; T中的lea my_symbol(%rip), %rax

在考虑asm 的微小序列时,周围的代码非常重要,特别是当它们竞争不同的吞吐量资源时。