对于以2为底的浮点数表示形式,IEEE 754-2008指定binary16(又称“半精度”),binary32(又称“单精度”),binary64(又称“双精度”)和较少使用的binary128和二进制256。但是,IEEE 754标准未指定标准的8位编码。
如果要在硬件中增加对8位浮点数的支持,最有用/标准的编码是什么(假设它遵循IEEE 754约定)?
我可以想到的可能的应用程序包括图形(颜色/光强度)和机器学习(DNN等)。
在我看来,最有效的方法是使用3-4位的指数,但是是否有任何值得注意的实现或标准可以指导这一决定?
背景:我正在创建一个自定义CPU ISA,并计划添加对低精度浮点(MIRSC32 packed floating point)的支持。