应用错误收集

LUT与Newton-Raphson部门的IEEE-754 32位浮点

时间：2012-04-02 17:56:02

标签： algorithm math assembly binary floating-point

我想知道在实现32位IEEE-754浮点除法时有什么权衡：使用LUT而不是Newton-Raphson方法？

当我说权衡时，我的意思是在内存大小，指令数等方面

我有一个小内存（130个字（每个16位））。我将尾部的12位高位（包括隐藏位）存储在一个存储位置，将低位12位的尾数存储在另一个位置。

目前我正在使用newton-raphson分部，但我正在考虑如果我改变了我的方法有什么权衡。以下是我的算法的链接：Newton's Method for finding the reciprocal of a floating point number for division

谢谢你，请解释你的推理。

2 个答案:

答案 0 :(得分：4)

权衡取舍相当简单。 LUT使用额外的内存，希望减少指令数量，足以节省一些时间。它是否有效将在很大程度上取决于处理器的细节 - 特别是缓存。

对于Newton-Raphson，您将X / Y更改为X *（1 / Y）并使用迭代查找1 / Y.至少根据我的经验，如果你需要完全精确，它很少有用 - 它的主要优点是允许你更快地找到（比如说）16位精度的东西。

通常的划分方法是bit-by-bit method。虽然这个特定的答案处理整数，但对于浮点数你基本上都是相同的，除了它与你一起减去指数。浮点数基本上是A * 2 ^N，其中A是有效数，N是数的指数部分。因此，你取两个数A * 2 ^N / B * 2 ^M，并进行除法为A / B * 2 ^NM，在这种情况下，A和B被视为（基本上）整数。唯一真正的区别是，对于浮点，您通常需要舍入而不是截断结果。这基本上只意味着执行除法（至少）一个额外的精度，然后如果额外的位是一个那么四舍五入。

使用查找表的最常用方法是SRT划分。这通常是在硬件中完成的，所以我可能谷歌就像“Verilog SRT”或“VHDL SRT”这样的东西。用C ++渲染它应该不是非常困难。我在链接的答案中概述的方法在每次迭代的位上产生，这可以写成2,4，等等。如果存储器服务，表的大小与每次迭代产生的位数呈二次方增长，所以你很少在实践中看到超过4个。

答案 1 :(得分：3)

每个Newton-Raphson步骤大约是精度数字的两倍，所以如果你能计算出你想要的特定尺寸LUT的精度位数，你应该能够计算出多少个NR步骤你需要达到你想要的精度。 Cray-1使用NR作为其倒数计算的最后阶段。为了解决这个问题，我在第9届IEEE计算机算术研讨会（1989年9月6日至8日）上发现了一篇相当详细的文章：An Accurate, High Speed Implementation of Division by Reciprocal Approximation。