我想创建一个函数,用于添加两个带有溢出检测的16位整数。我有便携式c写的通用变体。但是通用变量对于x86目标不是最佳的,因为CPU在执行ADD / SUB / etc时会在内部计算溢出标志。当然,有__builtin_add_overflow()
,但在我的情况下,它会产生一些样板。
所以我写下面的代码:
#include <cstdint>
struct result_t
{
uint16_t src;
uint16_t dst;
uint8_t of;
};
static void add_u16_with_overflow(result_t& r)
{
char of, cf;
asm (
" addw %[dst], %[src] "
: [dst] "+mr"(r.dst)//, "=@cco"(of), "=@ccc"(cf)
: [src] "imr" (r.src)
: "cc"
);
asm (" seto %0 " : "=rm" (r.of) );
}
uint16_t test_add(uint16_t a, uint16_t b)
{
result_t r;
r.src = a;
r.dst = b;
add_u16_with_overflow(r);
add_u16_with_overflow(r);
return (r.dst + r.of); // use r.dst and r.of for prevent discarding
}
我玩https://godbolt.org/g/2mLF55(gcc 7.2 -O2 -std = c ++ 11)并且结果
test_add(unsigned short, unsigned short):
seto %al
movzbl %al, %eax
addw %si, %di
addw %si, %di
addl %esi, %eax
ret
因此,seto %0
被重新排序。似乎gcc认为两个随后的asm()
语句之间没有依赖关系。并且“cc”clobber对标志依赖没有任何影响。
我不能使用volatile
因为seto %0
或整个函数可以(并且必须)优化,如果不使用结果(或结果的某些部分)。
我可以为r.dst:asm (" seto %0 " : "=rm" (r.of) : "rm"(r.dst) );
添加依赖项,并且不会重新排序。但它不是一个“正确的东西”,编译器仍然可以在add
和seto
语句之间插入一些代码更改标志(但不能更改r.dst)。
有没有办法说“这个asm()语句改变了一些cpu标志”和“这个asm()使用一些cpu标志”用于语句之间的依赖并防止重新排序?
答案 0 :(得分:2)
我没有看过__builtin_add_overflow
的gcc输出,但它有多糟糕? @David's建议使用它,https://gcc.gnu.org/wiki/DontUseInlineAsm通常很好,特别是如果您担心这会如何优化。 asm
击败不断传播和其他一些事情。
此外,如果您要使用ASM,请注意att语法是add %[src], %[dst]
操作数顺序。有关详细信息,请参阅the tag wiki,除非您始终使用-masm=intel
构建代码。
有没有办法说“这个asm()语句改变了一些cpu标志”和“这个asm()使用一些cpu标志”用于语句之间的依赖并防止重新排序?
没有。 将标志消耗指令(seto
)放在与生成标志的指令相同的asm
块中。 asm
语句可以根据需要使用许多输入和输出操作数,仅受寄存器分配困难的限制(但多个存储器输出可以使用具有不同偏移的相同基址寄存器)。无论如何,包含add
的语句上的额外只写输出不会导致任何低效率。
我打算建议如果你想从一条指令输出多个标志,请使用LAHF从FLAGS加载AH。但这不包括OF,只包括其他条件代码。这通常是不方便的,并且看起来像是一个糟糕的设计选择,因为有some unused reserved bits in the low 8 of EFLAGS/RFLAGS,因此OF可以与CF,SF,ZF,PF和AF一起处于低8。但由于情况并非如此,setc
+ seto
可能比pushf
/重新加载更好,但这值得考虑。
即使有flag-input的语法(就像有flag-output一样),但是让gcc插入一些自己的非标志修改指令会有很少的非常 (例如lea
或mov
)在两个单独的asm
语句之间。
你不希望它们重新排序或任何东西,所以将它们放在相同的asm语句中是最有意义的。即使在有序CPU中,add
也是低延迟,因此将依赖指令放在其后不是一个很大的瓶颈。
而BTW,如果溢出是一种不能正常发生的错误情况,jcc
可能会更有效。但遗憾的是GNU C asm goto
不支持输出操作数。您可以在内存中使用指针输入并修改dst
(并使用"memory"
clobber),但强制存储/重新加载比使用setc
或seto
生成更多编译器生成的test
/ jnz
的输入。
如果你还不需要输出,可以在return true
和return false
语句上放置C标签,这些语句(在内联之后)会将你的代码变成jcc到编译器的任何地方想要布置if()
的分支。例如看看Linux是如何做到的:(在我发现的这两个例子中有额外的复杂因素):setting up to patch the code在启动时检查一次CPU功能,或者在arch_static_branch
中检查跳转表的部分。)