我想知道是否有人可以提供一些可以利用硬件分频器的浮点平方根算法的例子。
额外细节: 我有一个我正在开发的浮点单元,它有一个硬件浮点IEEE-754 32位乘法器,加法器和分频器。我已经使用Newton-Raphson方法仅使用乘法和加法/减法来实现平方根,但是现在我想比较平方根的吞吐量,如果我有可用的硬件分配器。
难以准确计算的1个特定输入是0x7F7FFFFF(3.4028234663852886E38)的平方根。
答案 0 :(得分:1)
@tmyklebu提供的解决方案肯定似乎符合您的要求。
r = input value
s(0) = initial estimate of sqrt(r). Example: r with its exponent halved.
s(n) = sqrt(r)
s< - (s + r / s)/ 2
它具有二次收敛,执行所需的除法。对于32位浮点数,N = 3或4应该这样做。
[编辑N = 2表示32位浮点数,N = 3表示(可能是4表示双精度数据)
[根据OP请求编辑] [编辑每个OP请求添加的注释]
// Initial estimate
static double S0(double R) {
double OneOverRoot2 = 0.70710678118654752440084436210485;
double Root2 = 1.4142135623730950488016887242097;
int Expo;
// Break R into mantissa and exponent parts.
double Mantissa = frexp(R, &Expo);
int j;
printf("S0 %le %d %le\n", Mantissa, Expo, frexp(sqrt(R), &j));
// If exponent is odd ...
if (Expo & 1) {
// Pretend the mantissa [0.5 ... 1.0) is multiplied by 2 as Expo is odd,
// so it now has the value [1.0 ... 2.0)
// Estimate the sqrt(mantissa) as [1.0 ... sqrt(2))
// IOW: linearly map (0.5 ... 1.0) to (1.0 ... sqrt(2))
Mantissa = (Root2 - 1.0)/(1.0 - 0.5)*(Mantissa - 0.5) + 1.0;
}
else {
// The mantissa is in range [0.5 ... 1.0)
// Estimate the sqrt(mantissa) as [1/sqrt(2) ... 1.0)
// IOW: linearly map (0.5 ... 1.0) to (1/sqrt(2) ... 1.0)
Mantissa = (1.0 - OneOverRoot2)/(1.0 - 0.5)*(Mantissa - 0.5) + OneOverRoot2;
}
// Form initial estimate by using the above mantissa estimate and exponent/2
return ldexp(Mantissa, Expo/2);
}
// S = (S + R/S)/2 method
double Sqrt(double R) {
double S = S0(R);
int i = 5; // May be reduced to 3 or 4 for double and 2 for float
do {
printf("S %u %le %le\n", 5-i, S, (S-sqrt(R))/sqrt(R));
S = (S + R/S)/2;
} while (--i);
return S;
}
void STest(double x) {
printf("T %le %le %le\n", x, Sqrt(x), sqrt(x));
}
int main(void) {
STest(612000000000.0);
return 0;
}
双倍的3次迭代后收敛。
S0 5.566108e-01 40 7.460635e-01
S 0 7.762279e + 05 -7.767318e-03
S 1 7.823281e + 05 3.040175e-05
S 2 7.823043e + 05 4.621193e-10
S 3 7.823043e + 05 0.000000e + 00
S 4 7.823043e + 05 0.000000e + 00
T 6.120000e + 11 7.823043e + 05 7.823043e + 05