表达式模板实现未被优化

时间:2013-11-21 02:55:15

标签: c++ optimization compiler-construction vectorization expression-templates

我试图理解C ++中表达式模板的概念,因此我将拼凑的示例代码等拼凑在一起,以生成一个简单的向量和相关的表达式模板基础结构,以仅支持二元运算符(+ , - ,*)

一切都在编译,但是我注意到标准手写循环与表达模板变体之间的性能差异非常大。 ET的速度几乎是手写的两倍。我预计会有所不同但不是那么多。

可在此处找到完整的代码清单:

https://gist.github.com/BernieWt/769a4a3ceb90bb0cae9e

(为凌乱的代码道歉。)

简而言之,我主要比较以下两个循环:

ET:

for (std::size_t i = 0 ; i < rounds; ++i)
{
   v4 = ((v0 - v1) + (v2 * v3)) + v4;
   total += v4[0];
}

HW:

for (std::size_t i = 0 ; i < rounds; ++i)
{
   for (std::size_t x = 0; x < N; ++x)
   {
      v4[x] = (v0[x] - v1[x]) + (v2[x] * v3[x]) + v4[x];
   }
   total += v4[0];
}

当我反汇编输出时,产生以下内容,差异显然是额外的memcpy和ET变量返回期间发生的几个64位加载:

Standard Loop                           | Expression Template
----------------------------------------+--------------------------------
L26:                                    | L12:
xor   edx, edx                          | xor   edx, edx
jmp   .L27                              | jmp   .L13
L28:                                    | L14:
movsd xmm3, QWORD PTR [rsp+2064+rdx*8]  | movsd xmm3, QWORD PTR [rsp+2064+rdx*8]
L27:                                    | L13:
movsd xmm2, QWORD PTR [rsp+1040+rdx*8]  | movsd xmm1, QWORD PTR [rsp+1552+rdx*8]
movsd xmm1, QWORD PTR [rsp+16+rdx*8]    | movsd xmm2, QWORD PTR [rsp+16+rdx*8]
mulsd xmm2, QWORD PTR [rsp+1552+rdx*8]  | mulsd xmm1, QWORD PTR [rsp+1040+rdx*8]
subsd xmm1, QWORD PTR [rsp+528+rdx*8]   | subsd xmm2, QWORD PTR [rsp+528+rdx*8]
addsd xmm1, xmm2                        | addsd xmm1, xmm2
addsd xmm1, xmm3                        | addsd xmm1, xmm3
movsd QWORD PTR [rsp+2064+rdx*8], xmm1  | movsd QWORD PTR [rsp+2576+rdx*8], xmm1
add   rdx, 1                            | add   rdx, 1
cmp   rdx, 64                           | cmp   rdx, 64
jne   .L28                              | jne   .L14
                                        | mov   dx, 512
                                        | movsd QWORD PTR [rsp+8], xmm0
                                        | lea   rsi, [rsp+2576]
                                        | lea   rdi, [rsp+2064]
                                        | call  memcpy
movsd xmm3, QWORD PTR [rsp+2064]        | movsd xmm0, QWORD PTR [rsp+8]
sub   rcx, 1                            | sub   rbx, 1
                                        | movsd xmm3, QWORD PTR [rsp+2064]
addsd xmm0, xmm3                        | addsd xmm0, xmm3
jne   .L26                              | jne   .L12

我的问题是:此时我 卡住了 关于如何删除副本,我基本上想要在没有<更新的情况下更新v4强> 复制 即可。关于如何做到这一点的任何想法?

注1:我已经尝试过GCC 4.7 / 9,Clang 3.3,VS2010 / 2013 - 我在所有提到的编译器上获得了大致相同的性能配置文件。

注2:我还尝试向vec声明bin_exp,然后添加以下赋值运算符并从bin_exp中删除转换运算符,但无效

template<typename LHS, typename RHS, typename Op>
inline vec<N>& operator=(const bin_exp<LHS,RHS,Op,N>& o)
{
   for (std::size_t i = 0; i < N; ++i)  { d[i] = o[i]; }
   return *this;
}

更新注2中提供的解决方案实际上是正确的。并确实使编译器生成与手写循环相同的代码。

另一方面,如果我重写ET变体的用例如下:

auto expr = ((v0 - v1) + (v2 * v3)) + v4;

//auto& expr = ((v0 - v1) + (v2 * v3)) + v4;   same problem
//auto&& expr = ((v0 - v1) + (v2 * v3)) + v4;   same problem

for (std::size_t i = 0 ; i < rounds; ++i)
{
   v4 = expr
   total += v4[0];
}

发生崩溃是因为在实例化期间产生的临时(rvalues)在分配之前被销毁。我想知道是否有任何方式使用C ++ 11导致编译器错误。

2 个答案:

答案 0 :(得分:0)

C ++ 11引入了move semantics来减少不必要的副本数量。

您的代码相当混淆,但我认为这应该可以解决问题

struct vec替换

value_type d[N];

std::vector<value_type> d;

并将d(N)添加到构造函数初始化列表中。 std::array是显而易见的选择,但这意味着移动每个元素(即您试图避免的副本)。

然后添加一个移动构造函数:

vec(vec&& from): d(std::move(from.d))
{
}

移动构造函数允许新对象“窃取”旧对象的内容。换句话说,不是复制整个向量(数组),而是仅复制指向数组的指针。

答案 1 :(得分:0)

表达模板的关键在于对子表达式的评估可能会导致临时成本,从而产生成本并且不会带来任何好处。在你的代码中,你并不是真的在比较苹果和苹果。比较的两种选择是:

// Traditional
vector operator+(vector const& lhs, vector const& rhs);
vector operator-(vector const& lhs, vector const& rhs);
vector operator*(vector const& lhs, vector const& rhs);

使用这些操作定义,您想要解决的表达式:

v4 = ((v0 - v1) + (v2 * v3)) + v4;

成为(为所有临时工提供名字):

auto __tmp1 = v0 - v1;
auto __tmp2 = v2 * v3;
auto __tmp3 = __tmp1 + __tmp2;
auto __tmp4 = __tmp3 + v4;
// assignment is not really part of the expression
v4 = __tmp4;

如您所见,有4个临时对象,如果您使用表达式模板,则减少到最低限度:一个临时对象,因为任何这些操作都会产生不合适的值。

在您的手动滚动版本的代码中,您没有执行相同的操作,您宁愿展开整个循环并利用完整操作的知识,而不是真正相同的操作,因为知道您将分配在表达式结尾处的一个元素中,您将表达式转换为:

v4 += ((v0 - v1) + (v2 * v3));

现在考虑如果不是分配给参与表达式的一个向量而是创建一个新的向量v5,会发生什么。试试表达式:

auto v5 = ((v0 - v1) + (v2 * v3)) + v4;

表达式模板的神奇之处在于,您可以为运行模板的运算符提供实现,该模板与手动实现一样高效,并且用户代码更简单,更不容易出错(无需迭代矢量的所有元素,可能存在错误或维护成本,因为需要在执行算术运算的每个位置知道向量的内部表示)

  

我基本上想要在没有副本的情况下更新v4

使用表达式模板和向量的当前界面,您将支付临时和副本的费用。原因是在表达式的(概念性)评估期间创建了一个新的向量,而对于v4 = ... + v4;等同于v4 += ...似乎很明显,编译器无法完成转换或表达模板。另一方面,您可以提供带有表达式模板的vector::operator+=(甚至可能是operator=)的重载,并执行操作。


提供从表达式模板赋值的赋值运算符和使用g ++ 4.7 -O2构建的这是两个循环的生成程序集:

    call    __ZNSt6chrono12system_clock3nowEv   |    call    __ZNSt6chrono12system_clock3nowEv  
    movl    $5000000, %ecx                      |    movl    $5000000, %ecx                     
    xorpd   %xmm0, %xmm0                        |    xorpd   %xmm0, %xmm0                       
    movsd   2064(%rsp), %xmm3                   |    movsd   2064(%rsp), %xmm3                  
    movq    %rax, %rbx                          |    movq    %rax, %rbx                         
    .align 4                                    |    .align 4                                   
L9:                                             |L15:                                           
    xorl    %edx, %edx                          |    xorl    %edx, %edx                         
    jmp L8                                      |    jmp L18                                    
    .align 4                                    |    .align 4                                   
L32:                                            |L16:                                           
    movsd   2064(%rsp,%rdx,8), %xmm3            |    movsd   2064(%rsp,%rdx,8), %xmm3           
L8:                                             |L18:                                           
    movsd   1552(%rsp,%rdx,8), %xmm1            |    movsd   1040(%rsp,%rdx,8), %xmm2           
    movsd   16(%rsp,%rdx,8), %xmm2              |    movsd   16(%rsp,%rdx,8), %xmm1             
    mulsd   1040(%rsp,%rdx,8), %xmm1            |    mulsd   1552(%rsp,%rdx,8), %xmm2           
    subsd   528(%rsp,%rdx,8), %xmm2             |    subsd   528(%rsp,%rdx,8), %xmm1            
    addsd   %xmm2, %xmm1                        |    addsd   %xmm2, %xmm1                       
    addsd   %xmm3, %xmm1                        |    addsd   %xmm3, %xmm1                       
    movsd   %xmm1, 2064(%rsp,%rdx,8)            |    movsd   %xmm1, 2064(%rsp,%rdx,8)           
    addq    $1, %rdx                            |    addq    $1, %rdx                           
    cmpq    $64, %rdx                           |    cmpq    $64, %rdx                          
    jne L32                                     |    jne L16                                    
    movsd   2064(%rsp), %xmm3                   |    movsd   2064(%rsp), %xmm3                  
    subq    $1, %rcx                            |    subq    $1, %rcx                           
    addsd   %xmm3, %xmm0                        |    addsd   %xmm3, %xmm0                       
    jne L9                                      |    jne L15                                    
    movsd   %xmm0, (%rsp)                       |    movsd   %xmm0, (%rsp)                      
    call    __ZNSt6chrono12system_clock3nowEv   |    call    __ZNSt6chrono12system_clock3nowEv