IEEE浮点实现,精度和近似值的积累

时间:2013-09-10 14:03:40

标签: c++ floating-point implementation floating-accuracy approximation

如果我正确理解IEEE浮点数,则无法准确表示某些值。它们在非常有限的情况下是准确的,并且几乎每个浮点运算都会增加累积的近似值。另外,另一个缺点 - “最小步骤”随着指数的增长而增长。

提供更具体的代表性不是更好吗?

例如,对于“十进制”部分使用20位,但不是所有2 ^ 20值都使用,而是仅使用1000000,给出完整的1 /百万分之一的最小表示/分辨率,并使用其他44位作为整数部分,给出相当的范围。这样,可以使用整数运算来计算“浮点”数,这甚至可以更快地结束。在乘法,加法和减法的情况下,没有近似的累积,唯一可能的损失是在除法期间。

这个概念基于这样的事实:2 ^ n值对于表示十进制数不是最佳的,例如, 1并没有将它分成1024个部分,但它很好地划分为1000个。从技术上讲,这是省略了使用全精度,但我可以想到很多情况下LESS可以更多。

当然,这种方法在某种程度上会失去范围和精度,但在所有不需要肢体的情况下,这样的表示听起来是个好主意。

1 个答案:

答案 0 :(得分:3)

您所描述的命题是定点算术。现在,关于更好更糟,这并非必要;每种表示都有优点和缺点,通常使一种表现形式比另一种更适合某些特定目的。例如:

  • 定点运算不会为加法和减法等操作引入路由错误,使其适用于财务计算。你当然不希望将钱存入浮点值。

  • 推测:可以说,定点运算在实现方面更简单,这可能会导致更小,更高效的电路。

  • 浮点表示覆盖范围极大:它可用于存储非常大的数字(~10 40 表示32位浮点数,10 308 对于64位的)和真正小的正面(~10 -320 )以牺牲精度为代价,而定点表示则受其大小的线性限制。

  • 浮点精度在可表示范围内不均匀分布。相反,大多数值(以可表示数字的数量表示)位于0左右的单位球中。这使得它在我们最常操作的范围内非常准确。

你自己说:

  

从技术上讲,这是省略使用全精度,但我   可以想到很多LESS可以更多的案例

确切地说,这就是重点。现在,根据手头的问题,必须做出选择。没有一个适合所有人的表现形式,它始终是一种权衡。