量化
真实值 V 的量化 Q 由位的加权和表示。在一般的斜率和偏置编码方案的上下文中,无符号定点量的真实逼近值 由下式给出:
而有符号定点量的真实逼近值由下式给出:
其中
是二进制位,其中 (对于 )
ws 是以位为单位的字长,其中 ws =
1、2、3、...、65535。S 由 给出,其中定标是不受限制的,因为二进制小数点不必与字紧连。F 是斜率调整因子,它是在范围 [1.0, 2.0) 内的值。
称为位乘数, 称为权重。
定点格式
8 位有符号和无符号定点值的格式如下图所示。

请注意,您无法仅通过检查来辨别这些数是有符号还是无符号数据类型,因为此信息未在字内显式编码。
二进制数 0011.0101 对无符号和 2 的补码表示产生相同的值,因为 MSB = 0。设置 B = 0 并使用适当的权重、位乘数和定标,该值为
相反,二进制数 1011.0101 对无符号和 2 的补码表示产生不同的值,因为 MSB = 1。
设置 B = 0 并使用适当的权重、位乘数和定标,无符号值为
而 2 的补码值为