代码的目的是找到32位浮点位模式的总数,它代表0到1之间的值。在我看来这应该可行,但由于某种原因,Clang的汇编输出基本上是相当于return 0;
。
我用Clang 3.3和Clang 3.4.1编译了这个,使用-std=c++1y -Wall -Wextra -pedantic -O2
和-std=c++1y -Wall -Wextra -pedantic -O3
Clang 3.4使用-O2和-O3优化所有内容。
Clang 3.3仅使用-O3优化所有内容。
通过“优化一切”,我的意思是这是程序的汇编输出:
main: # @main
xorl %eax, %eax
ret
#include <limits>
#include <cstring>
#include <cstdint>
template <class TO, class FROM>
inline TO punning_cast(const FROM &input)
{
TO out;
std::memcpy(&out, &input, sizeof(TO));
return out;
}
int main()
{
uint32_t i = std::numeric_limits<uint32_t>::min();
uint32_t count = 0;
while (1)
{
float n = punning_cast<float>(i);
if(n >= 0.0f && n <= 1.0f)
count++;
if (i == std::numeric_limits<uint32_t>::max())
break;
i++;
}
return count;
}
答案 0 :(得分:61)
这是一个更简单的测试用例,指出它是编译器错误:
http://coliru.stacked-crooked.com/a/58b3f9b4edd8e373
#include <cstdint>
int main()
{
uint32_t i = 0;
uint32_t count = 1;
while (1)
{
if( i < 5 )
count+=1;
if (i == 0xFFFFFFFF)
break;
i++;
}
return count; // should return 6
}
程序集显示它输出1而不是6.它不认为它是无限循环,在这种情况下程序集不会从main返回。
答案 1 :(得分:4)
这不是一个答案,而是一个对评论来说太大的数据点。
有趣的是,如果您在返回之前打印count
,则clang将仍然优化所有内容并使用0
和-O3
打印1065353218
与-O0
。 (请注意,echo $?
报告返回值始终 2,无论实际返回值是多少)。对我来说,这使它看起来像编译器错误。
如果您将while
变为for
:
for (uint32_t i = std::numeric_limits<uint32_t>::min(); i != std::numeric_limits<uint32_t>::max(); ++i)
{
float n = punning_cast<float>(i);
if(n >= 0.0f && n <= 1.0f)
count++;
}
然后两个优化级别都会出现相同的答案。绝对正确,如果你打印,虽然我没有看到集会,它可能也适用于未打印的情况,因为它确实需要时间才能完成。 (铿锵声3.4)
我之前在LLVM中发现了错误(有趣的模板业务使得clang段错误),并且如果你给出了一个很清楚的错误示例,他们已经在修复错误。我建议您将其作为错误报告提交。
答案 2 :(得分:3)
使用mukunda上面的例子,在clang 3.4中使用-O2,问题似乎是在矢量化阶段。向量化代码在入口处跳转到过矢量化代码:
br i1 true, label %middle.block, label %vector.ph
所以count
的值在初始化时保持不变。
*** IR Dump Before Combine redundant instructions ***
; Function Attrs: nounwind readnone ssp uwtable
define i32 @main() #0 {
entry:
br i1 true, label %middle.block, label %vector.ph
vector.ph: ; preds = %entry
br label %vector.body
vector.body: ; preds = %vector.body, %vector.ph
%index = phi i32 [ 0, %vector.ph ], [ %index.next, %vector.body ]
%vec.phi = phi <4 x i32> [ <i32 1, i32 0, i32 0, i32 0>, %vector.ph ], [ %4, %vector.body ]
%vec.phi8 = phi <4 x i32> [ zeroinitializer, %vector.ph ], [ %5, %vector.body ]
%broadcast.splatinsert = insertelement <4 x i32> undef, i32 %index, i32 0
%broadcast.splat = shufflevector <4 x i32> %broadcast.splatinsert, <4 x i32> undef, <4 x i32> zeroinitializer
%induction = add <4 x i32> %broadcast.splat, <i32 0, i32 1, i32 2, i32 3>
%induction7 = add <4 x i32> %broadcast.splat, <i32 4, i32 5, i32 6, i32 7>
%0 = icmp ult <4 x i32> %induction, <i32 5, i32 5, i32 5, i32 5>
%1 = icmp ult <4 x i32> %induction7, <i32 5, i32 5, i32 5, i32 5>
%2 = zext <4 x i1> %0 to <4 x i32>
%3 = zext <4 x i1> %1 to <4 x i32>
%4 = add <4 x i32> %2, %vec.phi
%5 = add <4 x i32> %3, %vec.phi8
%6 = icmp eq <4 x i32> %induction, <i32 -1, i32 -1, i32 -1, i32 -1>
%7 = icmp eq <4 x i32> %induction7, <i32 -1, i32 -1, i32 -1, i32 -1>
%8 = add <4 x i32> %induction, <i32 1, i32 1, i32 1, i32 1>
%9 = add <4 x i32> %induction7, <i32 1, i32 1, i32 1, i32 1>
%index.next = add i32 %index, 8
%10 = icmp eq i32 %index.next, 0
br i1 %10, label %middle.block, label %vector.body, !llvm.loop !1
middle.block: ; preds = %vector.body, %entry
%resume.val = phi i32 [ 0, %entry ], [ 0, %vector.body ]
%trunc.resume.val = phi i32 [ 0, %entry ], [ 0, %vector.body ]
%rdx.vec.exit.phi = phi <4 x i32> [ <i32 1, i32 0, i32 0, i32 0>, %entry ], [ %4, %vector.body ]
%rdx.vec.exit.phi9 = phi <4 x i32> [ zeroinitializer, %entry ], [ %5, %vector.body ]
%bin.rdx = add <4 x i32> %rdx.vec.exit.phi9, %rdx.vec.exit.phi
%rdx.shuf = shufflevector <4 x i32> %bin.rdx, <4 x i32> undef, <4 x i32> <i32 2, i32 3, i32 undef, i32 undef>
%bin.rdx10 = add <4 x i32> %bin.rdx, %rdx.shuf
%rdx.shuf11 = shufflevector <4 x i32> %bin.rdx10, <4 x i32> undef, <4 x i32> <i32 1, i32 undef, i32 undef, i32 undef>
%bin.rdx12 = add <4 x i32> %bin.rdx10, %rdx.shuf11
%11 = extractelement <4 x i32> %bin.rdx12, i32 0
%cmp.n = icmp eq i32 0, %resume.val
br i1 %cmp.n, label %while.end, label %scalar.ph
scalar.ph: ; preds = %middle.block
br label %while.body
while.body: ; preds = %while.body, %scalar.ph
%i.0 = phi i32 [ %trunc.resume.val, %scalar.ph ], [ %inc, %while.body ]
%count.0 = phi i32 [ %11, %scalar.ph ], [ %add.count.0, %while.body ]
%cmp = icmp ult i32 %i.0, 5
%add = zext i1 %cmp to i32
%add.count.0 = add i32 %add, %count.0
%cmp1 = icmp eq i32 %i.0, -1
%inc = add i32 %i.0, 1
br i1 %cmp1, label %while.end, label %while.body, !llvm.loop !4
while.end: ; preds = %middle.block, %while.body
%add.count.0.lcssa = phi i32 [ %add.count.0, %while.body ], [ %11, %middle.block ]
ret i32 %add.count.0.lcssa
}
优化器稍后会删除无法访问和无效的代码 - 这几乎是整个函数体。