我测试了以下7个函数,我无法理解为什么combine7比combine5更好。因为它们仅在“()”的位置上不同。
任何人都可以向我解释一下吗?
这是我的代码:
#include "Common.h"
#define PLUS
#ifdef PLUS
#define INDENT 0
#define OP +
#else
#define INDENT 1
#define OP *
#endif
typedef int data_t;
typedef struct
{
long int len;
data_t *data;
}vec_rec, *vec_ptr;
vec_ptr new_vec(long int len)
{
vec_ptr result = (vec_ptr)malloc(sizeof(vec_rec)); //Allocate header structure
if(!result) return NULL;
result->len = len;
if(len > 0) //Allocate array
{
data_t* data = (data_t*)calloc(len, sizeof(data_t));
if(!data)
{
free((void*)result);
return NULL;
}
result->data = data;
}
else result->data = NULL;
return result;
}
int get_vec_element(vec_ptr v, long int index, data_t * dest)
{
if(index < 0 || index >= v->len) return 0;
*dest = v->data[index];
return 1;
}
long int vec_length(vec_ptr v)
{
return v->len;
}
data_t* get_vec_start(vec_ptr v)
{
return v->data;
}
void combine5(vec_ptr v, data_t* dest)
{
long int i;
long int length = vec_length(v);
long int limit = length - 1;
data_t* data = get_vec_start(v);
data_t acc = INDENT;
for(i = 0; i < limit; i += 2)
{
acc = (acc OP data[i]) OP data[i + 1];
}
for(; i < length; i++)
acc = acc OP data[i];
*dest = acc;
}
void combine7(vec_ptr v, data_t* dest)
{
long int i;
long int length = vec_length(v);
long int limit = length - 1;
data_t* data = get_vec_start(v);
data_t acc = INDENT;
for(i = 0; i < limit; i += 2)
{
acc = acc OP (data[i] OP data[i + 1]);
}
for(; i < length; i++)
acc = acc OP data[i];
*dest = acc;
}
std::mt19937 gen;
int roll_die() {
std::uniform_int_distribution<> dist(1, 6);
return dist(gen);
}
int main()
{
const size_t len = 10000000;
auto vec_pointer = new_vec(len);
std::generate(vec_pointer->data, vec_pointer->data + vec_pointer->len, roll_die);
std::cout << "Initialized datas..." << std::endl;
/*std::copy(vec_pointer->data, vec_pointer->data + vec_pointer->len,
std::ostream_iterator<int>(std::cout, "\t"));*/
data_t dest = 0;
utility::CStopwatch stopwatch5;
combine5(vec_pointer, &dest);
std::cout << "combine5 elapsed time(microseconds): " << stopwatch5.NowInMicro() << std::endl;
utility::CStopwatch stopwatch7;
combine7(vec_pointer, &dest);
std::cout << "combine7 elapsed time(microseconds): " << stopwatch7.NowInMicro() << std::endl;
}
这是我的结果:
Initialized datas...
combine5 elapsed time(microseconds): 16934
combine7 elapsed time(microseconds): 14858
答案 0 :(得分:1)
acc = (acc OP data[i]) OP data[i + 1];
自然慢于
acc = acc OP (data[i] OP data[i + 1]);
因为在第一种情况下,您尝试在不同的操作中访问数据元素data [i]和data [i + 1],这会导致很大的开销,而在第二种情况下,您尝试同时访问它们(data[i] OP data[i + 1])
的操作,因为它们是相邻的内存位置并且相互迭代,比在不同的时刻访问它们要快。
答案 1 :(得分:0)
如果您真的想知道是什么让不同的函数执行不同的操作,那么分析编译器生成的汇编代码可能是一个想法。这些功能非常简单,无法在装配中读取,即使是通常不熟悉的功能。
在函数3 中,您在每次迭代中取消引用:
for(i = 0; i < length; i ++)
{
*dest = *dest OP data[i];
}
在功能4 中,您最后只需取消引用:
for(i = 0; i < length; i ++)
{
acc = acc OP data[i];
}
*dest = acc;
功能5 ,速度更快,因为它只迭代迭代次数的一半。请参阅:Loop unwinding
答案 2 :(得分:0)
不清楚为什么这些应该有很大的不同(当然fatih_k的解释并不能说服我)。由于您的运算符是可交换的,因此编译器可能仍希望更改顺序(取决于编译器标志)。您是否尝试过不同的编译器标志(特别是优化标志)和不同的编译器(clang,gcc,icpc)?
此外,循环体的以下形式如何?
{
acc *= data[i];
acc *= data[i+1];
}
附注:避免那些糟糕的宏。改为编写模板化代码。