浮点量化从双倍到8位

时间:2016-04-01 09:49:52

标签: floating-point rounding quantization

如何将double precision floating point舍入到可以存储在8bit floating point中的值? 我试图以数学方式进行,但我不知道该怎么做。

我有一个x double个号码,我应该找到yn*2^b nb一起表达的最近n [-128,127]中的整数和n。但是,我怎样才能找到最好的b和{{1}}?

1 个答案:

答案 0 :(得分:0)

我用这个算法解决了:

function y = DoubleTo8bit( x )
s=sign(x);
x=abs(x);

if x==0
    y=0;
    return; 
end
b=floor(log2(x)+1)-8+(s>0);
m=s*round(x/2^b);

y=m*2^b;
end