我正在为我的3D计算开发优化,现在我已经:
plain
”版本,SSE
,#define USE_SSE
优化版本
AVX
#define USE_AVX
优化版本
是否可以在3个版本之间切换而无需编译不同的可执行文件(例如,具有不同的库文件并动态加载“正确”的文件,不知道inline
函数是否“正确”那)?
我也考虑过在软件中进行这种切换的表现。
答案 0 :(得分:6)
有几种解决方案。
一个基于C ++,您可以在其中创建多个类 - 通常,您实现一个接口类,并使用工厂函数为您提供正确类的对象。
e.g。
class Matrix
{
virtual void Multiply(Matrix &result, Matrix& a, Matrix &b) = 0;
...
};
class MatrixPlain : public Matrix
{
void Multiply(Matrix &result, Matrix& a, Matrix &b);
};
void MatrixPlain::Multiply(...)
{
... implementation goes here...
}
class MatrixSSE: public Matrix
{
void Multiply(Matrix &result, Matrix& a, Matrix &b);
}
void MatrixSSE::Multiply(...)
{
... implementation goes here...
}
... same thing for AVX...
Matrix* factory()
{
switch(type_of_math)
{
case PlainMath:
return new MatrixPlain;
case SSEMath:
return new MatrixSSE;
case AVXMath:
return new MatrixAVX;
default:
cerr << "Error, unknown type of math..." << endl;
return NULL;
}
}
或者,如上所述,您可以使用具有公共接口的共享库,并动态加载正确的库。
当然,如果将Matrix基类实现为“普通”类,则可以逐步细化并仅实现实际找到的部分是有益的,并依赖基类来实现性能不高的函数高度的。
编辑: 你谈论内联,如果是这种情况,我认为你正在考虑错误的功能级别。你需要相当大的函数来完成相当多的数据。否则,您将花费所有精力将数据准备为正确的格式,然后执行一些计算指令,然后将数据放回内存中。
我还会考虑如何存储您的数据。你在存储X,Y,Z,W的数组,或者你在不同的数组中存储大量的X,大量的Y,大量的W和许多W [假设我们正在进行3D计算]?根据您的计算方式,您可能会发现以一种或另一种方式为您提供最佳效益。
我做了很多SSE和3DNow!几年前的优化,而“技巧”往往更多地是关于如何存储数据,以便您可以轻松地一次性获取正确类型数据的“捆绑”。如果您以错误的方式存储数据,您将浪费大量时间“调整数据”(将数据从一种存储方式移动到另一种方式)。
答案 1 :(得分:5)
一种方法是实现符合相同接口的三个库。使用动态库,您只需交换库文件,可执行文件将使用它找到的任何内容。例如,在Windows上,您可以编译三个DLL:
然后针对Impl.dll
创建可执行链接。现在只需将三个特定DLL中的一个放入与.exe
相同的目录中,将其重命名为Impl.dll
,它将使用该版本。同样的原则基本上应该适用于类UNIX操作系统。
下一步是以编程方式加载库,这可能是最灵活的,但它是特定于操作系统的,需要更多的工作(比如打开库,获取函数指针等)。
编辑:但当然,您可以实现该功能三次并在运行时选择一个,具体取决于某些参数/配置文件设置等,如其他答案所示。< / p>
答案 2 :(得分:0)
当然可以。
执行此操作的最佳方法是使用完成作业的函数,并在运行时选择它们。这可行,但不是最佳:
typedef enum
{
calc_type_invalid = 0,
calc_type_plain,
calc_type_sse,
calc_type_avx,
calc_type_max // not a valid value
} calc_type;
void do_my_calculation(float const *input, float *output, size_t len, calc_type ct)
{
float f;
size_t i;
for (i = 0; i < len; ++i)
{
switch (ct)
{
case calc_type_plain:
// plain calculation here
break;
case calc_type_sse:
// SSE calculation here
break;
case calc_type_avx:
// AVX calculation here
break;
default:
fprintf(stderr, "internal error, unexpected calc_type %d", ct);
exit(1);
break
}
}
}
在每次遍历循环时,代码正在执行switch
语句,这只是开销。一个非常聪明的编译器理论上可以为你修复它,但最好自己解决它。
相反,编写三个单独的函数,一个用于plain,一个用于SSE,另一个用于AVX。然后在运行时决定运行哪一个。
对于奖励积分,在&#34;调试&#34;构建,使用SSE和plain进行计算,并声明结果足够接近以给出置信度。写简单版本,不是为了速度,而是为了正确;然后使用其结果来验证您的智能优化版本是否得到了正确的答案。
传奇的约翰卡马克推荐后一种方法;他称之为并行实施&#34;。请阅读his essay。
所以我建议你先写普通版。然后,返回并开始使用SSE或AVX加速重写部分应用程序,并确保加速版本给出正确的答案。 (有时,普通版本可能有加速版本没有的错误。有两个版本并进行比较有助于在任一版本中发现错误。)