Question

我测试了以下7个函数，我无法理解为什么combine7比combine5更好。因为它们仅在“（）”的位置上不同。

任何人都可以向我解释一下吗？

这是我的代码：

#include "Common.h"

#define PLUS
#ifdef PLUS
#define INDENT 0
#define OP +
#else
#define INDENT 1
#define OP *
#endif
typedef int data_t;
typedef struct
{
    long int len;
    data_t *data;
}vec_rec, *vec_ptr;
vec_ptr new_vec(long int len)
{
    vec_ptr result = (vec_ptr)malloc(sizeof(vec_rec));  //Allocate header structure
    if(!result) return NULL;
    result->len = len;
    if(len > 0)     //Allocate array
    {
        data_t* data = (data_t*)calloc(len, sizeof(data_t));
        if(!data)
        {
            free((void*)result);
            return NULL;
        }
        result->data = data;
    }
    else result->data = NULL;
    return result;
}
int get_vec_element(vec_ptr v, long int index, data_t * dest)
{
    if(index < 0 || index >= v->len) return 0;
    *dest = v->data[index];
    return 1;
}
long int vec_length(vec_ptr v)
{
    return v->len;
}
data_t* get_vec_start(vec_ptr v)
{
    return v->data;
}

void combine5(vec_ptr v, data_t* dest)  
{
    long int i;
    long int length = vec_length(v);
    long int limit = length - 1;
    data_t* data = get_vec_start(v);
    data_t acc = INDENT;

    for(i = 0; i < limit; i += 2)
    {
        acc = (acc OP data[i]) OP data[i + 1];  
    }
    for(; i < length; i++)
        acc = acc OP data[i];
    *dest = acc;
}

void combine7(vec_ptr v, data_t* dest)
{
    long int i;
    long int length = vec_length(v);
    long int limit = length - 1;
    data_t* data = get_vec_start(v);
    data_t acc = INDENT;

    for(i = 0; i < limit; i += 2)
    {
        acc = acc OP (data[i] OP data[i + 1]);
    }
    for(; i < length; i++)
        acc = acc OP data[i];
    *dest = acc;
}

std::mt19937 gen;
int roll_die() {

    std::uniform_int_distribution<> dist(1, 6);

    return dist(gen);

}

int main()
{
    const size_t len = 10000000;
    auto vec_pointer = new_vec(len);

    std::generate(vec_pointer->data, vec_pointer->data + vec_pointer->len, roll_die);
    std::cout << "Initialized datas..." << std::endl;
    /*std::copy(vec_pointer->data, vec_pointer->data + vec_pointer->len, 
        std::ostream_iterator<int>(std::cout, "\t"));*/

    data_t dest = 0;

    utility::CStopwatch stopwatch5;
    combine5(vec_pointer, &dest);
    std::cout << "combine5 elapsed time(microseconds): " << stopwatch5.NowInMicro() << std::endl;

    utility::CStopwatch stopwatch7;
    combine7(vec_pointer, &dest);
    std::cout << "combine7 elapsed time(microseconds): " << stopwatch7.NowInMicro() << std::endl;
}

这是我的结果：

Initialized datas...
combine5 elapsed time(microseconds): 16934
combine7 elapsed time(microseconds): 14858

Answer 1

acc = (acc OP data[i]) OP data[i + 1];自然慢于
acc = acc OP (data[i] OP data[i + 1]);

因为在第一种情况下，您尝试在不同的操作中访问数据元素data [i]和data [i + 1]，这会导致很大的开销，而在第二种情况下，您尝试同时访问它们(data[i] OP data[i + 1])的操作，因为它们是相邻的内存位置并且相互迭代，比在不同的时刻访问它们要快。

Answer 2

如果您真的想知道是什么让不同的函数执行不同的操作，那么分析编译器生成的汇编代码可能是一个想法。这些功能非常简单，无法在装配中读取，即使是通常不熟悉的功能。

在函数3 中，您在每次迭代中取消引用：

for(i = 0; i < length; i ++)
{
    *dest = *dest OP data[i];   
}

在功能4 中，您最后只需取消引用：

for(i = 0; i < length; i ++)
{
    acc = acc OP data[i];
}
*dest = acc;

功能5 ，速度更快，因为它只迭代迭代次数的一半。请参阅：Loop unwinding

Answer 3

不清楚为什么这些应该有很大的不同（当然fatih_k的解释并不能说服我）。由于您的运算符是可交换的，因此编译器可能仍希望更改顺序（取决于编译器标志）。您是否尝试过不同的编译器标志（特别是优化标志）和不同的编译器（clang，gcc，icpc）？

此外，循环体的以下形式如何？

 {
    acc *= data[i];
    acc *= data[i+1];
 }

附注：避免那些糟糕的宏。改为编写模板化代码。

为什么combine7的性能优于combine5？

3 个答案: