This TensorFlow指南提供了有关神经网络权重和激活的8位表示的一些见解。它将float32中min-max的范围映射到8bit格式,方法是将float32中的min值映射到int8中的0,将max值映射到255.这意味着add identity(0)映射到非零值甚至乘法标识( 1)可以映射到int8表示中除1之外的值。我的问题是,
在丢失这些身份之后,如何在新表示中执行算术?在添加/ sub的情况下,我们可以在适当的缩放和offseting之后返回about float32数。
如何将int8格式的乘法结果转换为本机float32格式?
答案 0 :(得分:1)
这里有一些量化过程的细节: http://www.oreilly.com/data/free/building-mobile-applications-with-tensorflow.csp
我们很快也会更新tensorflow.org文档。要专门回答#2,你有32位累加结果的新的最小/最大浮动范围,你可以用它来转换回浮点数。