近似值从双精度转换为单精度

时间:2020-09-18 14:26:08

标签: c floating-point precision floating-accuracy

我想将给定函数的双精度近似值转换为单精度C实现(目标设备仅提供单精度ALU)。

使用双精度生成高精度(例如最大误差0.1e-12)近似值并不太复杂。我使用过maple minimax函数,但是我也发现了一些使用双精度example的实现。

但是,只要将此近似值转换为单精度方法,当我简单地将系数转换为浮点数时,我就会面临精度损失。我的目标是达到大约+/- 5 ulp的近似值(单精度)。简单地将系数转换为浮点似乎并不能解决问题。我已经学会了将pi / 2之类的常数分成一个舍入部分和一个误差部分,并且我认为有一些技巧可以传递系数(近似值的核心计算通常是多项式,我想重点关注它们这个问题),我还不知道。

我很感谢每一个提示,有关关于转让旨在实现的论文。我已经研究了一些有关float precision的论文,但是在过去的两周中并没有取得太大进展。

谢谢!

1 个答案:

答案 0 :(得分:2)

生成多项式极小极大值逼近的一种常用方法是使用由俄罗斯数学家Evgeny Remez在1934年发布的Remez交换算法。这是一个数值过程,通常涉及病态方程组。结果,通常是在任意精度库的帮助下实现的。例如,在我使用的Remez算法的实现中,我将该库配置为1024位精度。

对于表现良好的函数,Remez算法的各种变体可以找到非常接近数学最小极大多项式的近似值。正如问题中指出的那样,问题是当将多项式的生成系数移至有限精度浮点计算时会发生什么。人们通常会发现近似值的极大极小值特性受损,有时会如此。有两个错误源在起作用。首先,生成的系数不能以有限精度浮点格式精确表示。其次,对多项式的求值使用有限精度运算而不是无限精度的数学运算。

第一个问题是更容易解决的问题。从一些快速实验中可以看出,仅将系数四舍五入为有限精度格式并不能实现所需的接近极小极大值的结果。通过使用有限精度格式,我们基本上从N维连续空间转换为N维离散晶格,并且要正确执行此操作,我们需要找到最接近的晶格点。这是一个可解决但很困难的问题,通常可以通过使用启发式方法使问题变得更容易。相关文献:

N。 Brisebarre,J.-M。 Muller和A. Tisserand,“计算机器有效的多项式近似值”。 数学软件上的ACM交易,第1卷。 32. 2006年6月第2号,第236-256页。 (online

Nicolas Brisebarre和Sylvain Chevillard,“有效多项式L -近似”,在第18届IEEE计算机算术研讨会上,,2007年6月,第169-176页 (online

Florent de Dinechin和Christoph Lauter,“优化浮点实现的多项式”,ArXiv预印本2008 (online

Sollya tool使用文献中的这些技术来制作fpminimax command。除了Maple和Mathematica的用于生成极小极大多项式逼近的功能外,还值得一试,因为根据我的经验,它经常会产生出更好的逼近。

第二个问题,即如何用有限精度浮点计算来求值,以及如何相应地调整多项式近似的系数。一些初步结果:

Tor Myklebust,“用有限精度算术计算特殊函数的精确霍纳形式近似”,ArXiv手稿2015 (online

Denis Arzelier,FlorentBréhard,Mioara Joldes,“评估和近似误差优化多项式的交换算法”,在第26届IEEE计算机算术研讨会上,,2019年6月,第30-37页 (online

请注意,第一本出版物的发布是由于我在Stackoverflow上问了question

我个人使用启发式搜索来找到优化的近似值,以解决系数的表示误差和多项式评估的评估误差。它可以粗略地描述为模拟退火的一种形式。我还检查了基因编程的使用,但是初步结果看起来并不乐观,因此我停止采用这种方法。