应用错误收集

计算1 / d的快速算法？（SRT，goldsmidt，newton raphson，...）

时间：2013-06-22 16:08:59

标签： algorithm fpga

我想找到一个用于计算1 / d的快速算法，其中d是double（虽然它可以转换为整数）什么是许多算法的最佳算法（SRT，goldschmidt，newton raphson，...）？我用c语言编写程序。

提前感谢。

3 个答案:

答案 0 :(得分：5)

最快的计划是：double result = 1 / d;

答案 1 :(得分：2)

CPU：已经使用了你所描述的根查找迭代算法来找到倒数1 / d。因此，您应该发现使用相同算法的软件实现很难击败它。

如果您有很少/已知的分母，那么尝试查找表。对于更慢的函数，例如trig函数，这是常用的方法。

否则：只计算1 / d。这将是你能做的最快的。如果你必须

，你可以做很多事情来加速算术

使用32位（单个）而不是64位（双精度）。 FP Division on需要与位数成比例的多个周期。
矢量化操作。例如，我相信您可以计算与SSE2并行的四个32位浮点除法，或者通过在GPU上进行并行计算甚至更多。

答案 2 :(得分：1)

我是从某人那里问过的，我得到了答案：

那么，你不能在FPGA中添加硬件分频器吗？还是快速互惠支持？

无论如何，这取决于。它有快速乘法吗？如果不是，那么这是一个问题，那么你只能实现慢速方法。

如果你有快速乘法和IEEE浮点数，你可以使用我在上一篇文章中链接的奇怪技巧，并进行几个改进步骤。这真的只是Newton-Raphson划分，初始近似计算更简单（但是对于单精度浮点数仍然只需要3次改进，就像常规的初始近似一样）。快速互惠支持也是这样做的 - 给出一个快速的初始近似值（处理指数权利并从查找表中获取有效位，如果你得到12个有效位，那么你只需要一个精确步骤用于单精度，或者13个就足够了获得双精度的2个步骤）并且可选地具有帮助实现细化步骤的指令（如AMD的PFRCPIT1和PFRCPIT2），例如计算Y =（1-D * X）并计算X + X * Y. / p>

即使没有那些技巧，Newton-Raphson分区仍然不错，线性近似只需要4次精确的双精度浮点数，但它也需要一些烦人的指数调整才能首先进入正确的范围（在硬件中不会有一半令人讨厌）。

Goldschmidt部门在业绩方面与大致相当，但实施起来可能稍微复杂一些。它实际上是同样的交易 - 诡计与指数进入正确的范围，“2 - 某事”估计技巧（在Newton-Raphson分部重新排列，但它实际上是相同的事情），并进行细化步骤直到所有位都正确。它看起来有点不同。