我正试图在尾数中以11位精度实现快速atan2(float)。 atan2实现将用于图像处理。 因此,最好使用SIMD指令(impl定位x86(带SSE2)和ARM(带vpfv4 NEON))。
目前,我使用chebyshev多项式逼近(https://jp.mathworks.com/help/fixedpoint/examples/calculate-fixed-point-arctangent.html)。
我愿意手动实现矢量化代码。 我将使用SSE2(或更高版本)& NEON包装器库。 我计划或尝试了这些实施选项
其他好主意?
答案 0 :(得分:5)
您要检查的第一件事是您的编译器在应用于atan2f (y,x)
数组时是否能够向量化float
。这通常需要至少一个高优化级别,例如-O3
,并可能指定一个宽松的“快速数学”模式,其中errno
处理,非正规和特殊输入(如无穷大和NaN)在很大程度上被忽略。使用这种方法,准确度可能远远超过要求,但在性能方面可能很难超越经过仔细调整的库实现。
接下来要尝试的是编写一个具有足够精度的简单标量实现,并让编译器对其进行矢量化。通常这意味着避免除了非常简单的分支之外的任何东西,可以通过if转换将其转换为无分支代码。此类代码的一个示例是下面显示的fast_atan2f()
。使用英特尔编译器,调用为icl /O3 /fp:precise /Qvec_report=2 my_atan2f.c
,成功向量化:my_atan2f.c(67): (col. 9) remark: LOOP WAS VECTORIZED.
通过反汇编双重检查生成的代码,显示fast_atan2f()
已使用{{1的SSE指令进行内联和向量化味道。
如果所有其他方法都失败了,您可以手动将*ps
的代码转换为特定于平台的SIMD内在函数,这应该不是那么难。我没有足够的经验来快速做到这一点。
我在这段代码中使用了一个非常简单的算法,这是一个简单的参数约简,在[0,1]中产生一个简化的参数,然后是一个minimax多项式逼近,最后一步将结果映射回完整圈。使用Remez算法生成核近似,并使用二阶Horner方案进行评估。可以在可用的情况下使用融合乘法(FMA)。出于性能原因,不处理涉及无穷大,NaN或fast_atan2()
的特殊情况。
0/0
上述程序的输出应类似于以下内容:
#include <stdio.h>
#include <stdlib.h>
#include <math.h>
/* maximum relative error about 3.6e-5 */
float fast_atan2f (float y, float x)
{
float a, r, s, t, c, q, ax, ay, mx, mn;
ax = fabsf (x);
ay = fabsf (y);
mx = fmaxf (ay, ax);
mn = fminf (ay, ax);
a = mn / mx;
/* Minimax polynomial approximation to atan(a) on [0,1] */
s = a * a;
c = s * a;
q = s * s;
r = 0.024840285f * q + 0.18681418f;
t = -0.094097948f * q - 0.33213072f;
r = r * s + t;
r = r * c + a;
/* Map to full circle */
if (ay > ax) r = 1.57079637f - r;
if (x < 0) r = 3.14159274f - r;
if (y < 0) r = -r;
return r;
}
/* Fixes via: Greg Rose, KISS: A Bit Too Simple. http://eprint.iacr.org/2011/007 */
static unsigned int z=362436069,w=521288629,jsr=362436069,jcong=123456789;
#define znew (z=36969*(z&0xffff)+(z>>16))
#define wnew (w=18000*(w&0xffff)+(w>>16))
#define MWC ((znew<<16)+wnew)
#define SHR3 (jsr^=(jsr<<13),jsr^=(jsr>>17),jsr^=(jsr<<5)) /* 2^32-1 */
#define CONG (jcong=69069*jcong+13579) /* 2^32 */
#define KISS ((MWC^CONG)+SHR3)
float rand_float(void)
{
volatile union {
float f;
unsigned int i;
} cvt;
do {
cvt.i = KISS;
} while (isnan(cvt.f) || isinf (cvt.f) || (fabsf (cvt.f) < powf (2.0f, -126)));
return cvt.f;
}
int main (void)
{
const int N = 10000;
const int M = 100000;
float ref, relerr, maxrelerr = 0.0f;
float arga[N], argb[N], res[N];
int i, j;
printf ("testing atan2() with %d test vectors\n", N*M);
for (j = 0; j < M; j++) {
for (i = 0; i < N; i++) {
arga[i] = rand_float();
argb[i] = rand_float();
}
// This loop should be vectorized
for (i = 0; i < N; i++) {
res[i] = fast_atan2f (argb[i], arga[i]);
}
for (i = 0; i < N; i++) {
ref = (float) atan2 ((double)argb[i], (double)arga[i]);
relerr = (res[i] - ref) / ref;
if ((fabsf (relerr) > maxrelerr) &&
(fabsf (ref) >= powf (2.0f, -126))) { // result not denormal
maxrelerr = fabsf (relerr);
}
}
};
printf ("max rel err = % 15.8e\n\n", maxrelerr);
printf ("atan2(1,0) = % 15.8e\n", fast_atan2f(1,0));
printf ("atan2(-1,0) = % 15.8e\n", fast_atan2f(-1,0));
printf ("atan2(0,1) = % 15.8e\n", fast_atan2f(0,1));
printf ("atan2(0,-1) = % 15.8e\n", fast_atan2f(0,-1));
return EXIT_SUCCESS;
}