是时候枚举n位的所有值

时间:2015-10-08 17:55:24

标签: cpu bits enumerate

我正在寻找通过所有可能以n位编码的可能值所需的理论时间,其中n很大(例如,80)。 我知道这需要一些指令,即测试,添加和跳转。但我无法弄清楚CPU如何在这样的数字上管理这些操作,以及每次增量的总周期数。

感谢任何帮助,谢谢!

1 个答案:

答案 0 :(得分:0)

总结:每个值一个时钟周期,将结果存储到内存中,在无序执行CPU上非常容易。除了存储结果之外的任何东西都比增量更多。

来自Agner Fog的指令吞吐量/延迟和CPU执行管道信息。

80位比普通64位CPU上的单个寄存器大,因此我们需要一对寄存器来保存这些值。即。

uint64_t high, low;  // or a struct, or a 2-element array

无论是单独的变量,结构域还是数组元素,任何体面的编译器都会将它们保存在寄存器中。 high可以是32位变量。

有两种方法可以将此对从0增加到2 ^ 80-1:

  • 缓慢的方式:低+ = 1,高=添加加密(高,0)。

  • 快速方式:双嵌套循环:

low = 0;
for (high = 0 ; high < 1UL << (80-64) ; high++) {
    do {
        use_value(high,low);  // this point sees all 2^64 values of low
        low++;
    } while (low != 0);
    // low has wrapped to zero, so we don't even have to re-zero it
}

如果必须使用32位代码执行此操作,请使用三重嵌套循环。 (在32位代码中使用uint64_t可能会很慢,每次都有一个add-carry。)

这应编译为内循环,每次迭代只需一个循环。 (英特尔Haswell可以进行每周期一次的循环迭代,但英特尔Sandybridge的每分钟循环吞吐量只有一个。)

我把这个on godbolt和store(memory_order_relaxed)作为我的use(high,low)放在原子全局中,以防止循环优化。存储比函数调用具有更少的开销,并且不需要mov指令来将变量放入正确的寄存器中。事实上它确实编译成一个相当好的循环,应该在大多数CPU上每个时钟运行一次。

当我在原子商店之前使用低++时,它使用了额外的test指令,这是愚蠢的。应该这样做:

loop80:
    xor edx, edx    # high
    xor eax, eax    # low
.Louter_loop:
    mov QWORD PTR global_h[rip], rdx    # or this could just be a 32bit store
.Linner_loop:
    mov QWORD PTR global_l[rip], rax    #,, low
    inc rax     # shorter encoding than add rax, 1
    jne .Linner_loop      # flags set by inc
 # inner loop is 2 fused-domain uops.  Or on AMD, 3 macro-ops since it can't fuse ALU ops with jcc

    inc edx     # only need to use the 32bit reg.
    cmp edx, 65536   # or count down from 65535 to zero, saving the cmp insn
    jne .Louter_loop

    ret

使用循环展开(gcc -O3 -funroll-loops),gcc和clang可以使用lea指令并行执行低+ 1,低+ 2,低+ 3等,因此循环执行依赖只是低+ = 8。这大大降低了所需的分支吞吐量,但现在瓶颈变成了存储吞吐量(每个时钟一个)。

如果我们遗漏商店,我们可以在寄存器中为每个时钟生成3 low个值。 (英特尔SnB和Haswell可以在两个执行端口上运行LEA,并在第三个端口上运行融合算术+分支。)这样就不会有任何执行资源可以自由地使用值来执行任何,但你要求的只是枚举他们。 LEA可用作非破坏性3操作数添加操作。击败吞吐量需要更多的LEA吞吐量或不同的CPU架构。例如对于大多数ALU操作,大多数RISC CPU(ARM,PowerPC等)具有3操作数指令,而不是具有dest = src操作数之一。我还没有看过POWER架构上的指令吞吐量(我发现指令助记符真的难以阅读......),但它可能能够并行执行4次添加。如果是这样,它可以在这个微基准测试中击败英特尔的x86实现。

注意我们如何递增全局变量。在dep链中具有store-gt; load依赖性将使其至少长达6个周期。原子增量(lock inc [mem])需要更长的时间。

因此,如果您需要对每个位模式执行任何操作,即使只将其存储在内存中,也会占用运行时间。如果您需要存储它,那么运行良好代码的无序执行CPU可以每个时钟并行生成多个值。 (英特尔和AMD目前的实现每个时钟只能存储一次。)

如果你想开始变得愚蠢,可以使用向量指令递增16(或32或64与AVX512)8位值,并为每个时钟执行一次16B(或32B或64B)存储。但是,这不会在内存中产生连续的80位值,这就是我称之为愚蠢的原因。