我用llvm-mca计算了一段代码的总周期,以为他们可以预测其运行时间。但是,动态测量运行时几乎没有相关性。因此:为什么llvm-mca计算的总周期不能准确预测运行时间?我可以使用llvm-mca更好地预测运行时间吗?
详细信息:
我想了解以下代码针对不同类型的begin
(和end
)迭代器的运行时间,其中startValue
是0.0
或0ULL
:
std::accumulate(begin, end, starValue)
为了预测运行时间,我将Compiler Explorer(https://godbolt.org/z/5HDzSF)及其LLVM机器代码分析器(llvm-mca)插件一起使用,因为llvm-mca是“一种性能分析工具,使用LLVM中可用的信息(例如计划模型)以静态衡量效果”。我使用了以下代码:
using vec_t = std::vector<double>;
vec_t generateRandomVector(vec_t::size_type size)
{
std::random_device rnd_device;
std::mt19937 mersenne_engine {rnd_device()};
std::uniform_real_distribution dist{0.0,1.1};
auto gen = [&dist, &mersenne_engine](){
return dist(mersenne_engine);
};
vec_t result(size);
std::generate(result.begin(), result.end(), gen);
return result;
}
double start()
{
vec_t vec = generateRandomVector(30000000);
vec_t::iterator vectorBegin = vec.begin();
vec_t::iterator vectorEnd = vec.end();
__asm volatile("# LLVM-MCA-BEGIN stopwatchedAccumulate");
double result = std::accumulate(vectorBegin, vectorEnd, 0.0);
__asm volatile("# LLVM-MCA-END");
return result;
}
但是,我看不到llvm-mca的计算机总周期与运行相应的std :: accumulate的挂钟时间之间的相关性。例如,在上面的代码中,总周期为2806,运行时间为14ms。当我切换到startValue 0ULL
时,总周期为2357,但运行时为117ms。
答案 0 :(得分:3)
TL:DR:LLVM-MCA分析了这些注释之间的整个代码块,就好像它是循环的 body 一样,并向您显示了所有迭代100次的周期数这些说明。
但是,除了实际的(微小)循环外,大多数指令都是循环设置,而循环之后的SIMD水平和实际上只运行一次。 (这就是为什么使用vaddpd
累加器的0.0
版本的周期计数为数千,而不是400 = 100的Skylake在double
的Skylake上的4周期延迟的原因)。
如果取消选中Godbolt编译器资源管理器上的“ //”框,或修改asm语句以添加"nop # LLVM-MCA-END"
之类的nop,则可以在asm窗口中找到这些行并查看LLVM-MCA正在查看它的“循环”。
LLVM MCA模拟指定的汇编指令序列,并计算在指定的目标体系结构上执行每次迭代所需的周期数。 LLVM MCA进行了许多简化,例如(超出我的脑袋):(1)假定所有条件分支都通过,(2)假定所有内存访问均为Write Back内存类型,并且所有命中L1高速缓存,(3)假设前端工作最佳,并且(4)call
指令不遵循被调用过程,它们只是掉入。我目前还不记得其他假设。
从本质上讲,LLVM MCA(如Intel IACA)仅适用于后端计算绑定的简单循环。在IACA中,虽然支持大多数指令,但未详细建模一些指令。作为示例,假定预取指令仅消耗微体系结构资源,但基本上占用零延迟,并且对内存层次结构的状态没有影响。在我看来,MCA完全忽略了此类指示。无论如何,这与您的问题并不特别相关。
现在返回您的代码。在提供的Compiler Explorer链接中,您没有将任何选项传递给LLVM MCA。因此,默认的目标体系结构即会生效,这与该工具所运行的体系结构无关。这恰好是SKX。您提到的循环总数是针对SKX的,但是尚不清楚是否在SKX上运行了代码。您应该使用-mcpu
选项来指定体系结构。这与您传递给gcc的-march
无关。还要注意,将核心周期与毫秒进行比较是没有意义的。您可以使用RDTSC
指令以核心周期来衡量执行时间。
请注意,编译器如何内联到std::accumulate
的调用。显然,此代码从汇编行405开始,std::accumulate
的最后一条指令在行444,总共38条指令。 LLVM MCA估计与实际性能不匹配的原因现在已经很清楚。该工具假定所有这些指令都在循环中执行了大量迭代。显然不是这样。 420-424之间只有一个循环:
.L75:
vaddpd ymm0, ymm0, YMMWORD PTR [rax]
add rax, 32
cmp rax, rcx
jne .L75
仅此代码应作为MCA的输入。在源代码级别,实际上没有办法告诉MCA仅分析此代码。您必须手动内联std::accumulate
并将LLVM-MCA-BEGIN
和LLVM-MCA-END
标记放在其中。
当将0ULL
而不是0.0
传递到std::accumulate
时,LLVM MCA的输入将从汇编指令402开始,在441结束。注意,MCA不支持的任何指令(例如vcvtsi2sdq
)将完全从分析中省略。实际在循环中的代码部分是:
.L78:
vxorpd xmm0, xmm0, xmm0
vcvtsi2sdq xmm0, xmm0, rax
test rax, rax
jns .L75
mov rcx, rax
and eax, 1
vxorpd xmm0, xmm0, xmm0
shr rcx
or rcx, rax
vcvtsi2sdq xmm0, xmm0, rcx
vaddsd xmm0, xmm0, xmm0
.L75:
vaddsd xmm0, xmm0, QWORD PTR [rdx]
vcomisd xmm0, xmm1
vcvttsd2si rax, xmm0
jb .L77
vsubsd xmm0, xmm0, xmm1
vcvttsd2si rax, xmm0
xor rax, rdi
.L77:
add rdx, 8
cmp rsi, rdx
jne .L78
请注意,在目标地址位于块中某处的代码中有一个条件跳转jns
。 MCA只是假设跳会失败。如果在实际的代码运行中不是这种情况,MCA将不必要地增加7条指令的开销。 jb
还有另一跳,但是我认为这一步对于大向量来说并不重要,并且会在大多数情况下掉落。最后的跳转jne
也是最后一条指令,因此MCA会假定下一条指令再次是最上面的一条。对于足够多的迭代,此假设非常好。
总的来说,很明显第一个代码比第二个代码小得多,因此可能要快得多。您的测量结果证实了这一点。您也实际上并不需要使用微体系结构分析工具来了解原因。第二个代码只是做更多的计算。因此,您可以很快得出结论,在所有体系结构上,通过0.0
的性能和代码大小都更好。