我正在尝试用C ++实现一个定点类,但是我遇到了性能问题。我已经将问题简化为浮点类型的简单包装,它仍然很慢。我的问题是 - 为什么编译器无法完全优化它?
'float'版本比'Float'快50%。为什么呢?!
(我使用Visual C ++ 2008,测试了所有可能的编译器选项,当然是Release配置。)
请参阅以下代码:
#include <cstdio>
#include <cstdlib>
#include "Clock.h" // just for measuring time
#define real Float // Option 1
//#define real float // Option 2
struct Float
{
private:
float value;
public:
Float(float value) : value(value) {}
operator float() { return value; }
Float& operator=(const Float& rhs)
{
value = rhs.value;
return *this;
}
Float operator+ (const Float& rhs) const
{
return Float( value + rhs.value );
}
Float operator- (const Float& rhs) const
{
return Float( value - rhs.value );
}
Float operator* (const Float& rhs) const
{
return Float( value * rhs.value );
}
bool operator< (const Float& rhs) const
{
return value < rhs.value;
}
};
struct Point
{
Point() : x(0), y(0) {}
Point(real x, real y) : x(x), y(y) {}
real x;
real y;
};
int main()
{
// Generate data
const int N = 30000;
Point points[N];
for (int i = 0; i < N; ++i)
{
points[i].x = (real)(640.0f * rand() / RAND_MAX);
points[i].y = (real)(640.0f * rand() / RAND_MAX);
}
real limit( 20 * 20 );
// Check how many pairs of points are closer than 20
Clock clk;
int count = 0;
for (int i = 0; i < N; ++i)
{
for (int j = i + 1; j < N; ++j)
{
real dx = points[i].x - points[j].x;
real dy = points[i].y - points[j].y;
real d2 = dx * dx + dy * dy;
if ( d2 < limit )
{
count++;
}
}
}
double time = clk.time();
printf("%d\n", count);
printf("TIME: %lf\n", time);
return 0;
}
答案 0 :(得分:4)
IMO,它与优化标志有关。我在g ++ linux-64机器上检查了你的程序。如果没有任何优化,它会给出与您告知的50%
更少的结果相同的结果。
保持最大优化开启(即-O4
)。两个版本都相同。打开优化并检查。
答案 1 :(得分:4)
尝试不通过引用传递。你的类足够小,以至于通过引用传递它的开销(是的,如果编译器没有优化它就有开销),可能高于复制类。所以这......
Float operator+ (const Float& rhs) const
{
return Float( value + rhs.value );
}
会变成这样......
Float operator+ (Float rhs) const
{
rhs.value+=value;
return rhs;
}
避免了临时对象,可以避免指针解除引用的某些间接。
答案 2 :(得分:2)
经过进一步调查后,我完全相信这是编译器优化管道的一个问题。与使用非封装的 float 相比,此实例中生成的代码显着错误。我的建议是向微软报告这个潜在的问题,看看他们对此有什么看法。我还建议你继续实现这个类的计划定点版本,因为为整数生成的代码看起来是最佳的。