浮点型简单讲就是实数的意思。浮点数在计算机中用以近似表示任意某个实数。具体的说，这个实数由一个整数或定点数(即尾数)乘以某个基数(计算机中通常是2)的整数次幂得到，这种表示方法类似于基数为10的科学记数法。浮点计算是指浮点数参与的运算，这种运算通常伴随着因为无法精确表示而进行的近似或舍入。有一些计算机提供更大的浮点数，例如英特尔公司的浮点运算单元Intel8087协处理器（以及其被集成进x86处理器中的后代产品）提供80位长的浮点数，用于存储浮点运算的中间结果。

计算

浮点计算是指浮点数参与的运算，这种运算通常伴随着因为无法精确表示而进行的近似或舍入。

一个浮点数a由两个数m和e来表示：a=m×b^e(b的e次方）。在任意一个这样的系统中，我们选择一个基数b（记数系统的基）和精度p（即使用多少位来存储）。m（即尾数）是形如±d.ddd…ddd的p位数（每一位是一个介于0到b-1之间的整数，包括0和b-1）。如果m的第一位是非0整数，m称作规格化的。有一些描述使用一个单独的符号位（s代表+或者-）来表示正负，这样m必须是正的。e是指数。

这种设计可以在某个固定长度的存储空间内表示定点数无法表示的更大范围的数。

举例说明

例如，一个指数范围为±4的4位十进制浮点数可以用来表示43210，4.321或0.0004321，但是没有足够的精度来表示432.123和43212.3（必须近似为432.1和43210）。当然，实际使用的位数通常远大于4。

此外，浮点数表示法通常还包括一些特别的数值：+∞和−∞（正负无穷大）以及NaN（'Not a Number'）。无穷大用于数太大而无法表示的时候，NaN则指示非法操作或者无法定义的结果。

大部分计算机采用二进制（b=2）的表示方法。位(bit）是衡量浮点数所需存储空间的单位，通常为32位或64位，分别被叫作单精度和双精度。有一些计算机提供更大的浮点数，例如英特尔公司的浮点运算单元Intel8087协处理器（以及其被集成进x86处理器中的后代产品）提供80位长的浮点数，用于存储浮点运算的中间结果。还有一些系统提供128位的浮点数

标准保存

以下内容需要知道二进制，小数转换，十进制计算方法和整数一样，都是对每一位用2的幂，加权。

IEEE浮点标准用V=(-1）^s*M*2^E的形式表示

V就是值

符号（sign)s决定正负，对于0有特殊处理

有效数（significand)M是一个二进制小数，范围在1~2或0~1之间

指数（exponent)E是2的幂（可以是负数），对浮点数加权

浮点数划分成3个域

一个单独符号位编码s

k位指数域exp=e(k-1）…e⑴e(0）编码指数E

n位小数域frac=f(n-1）…f⑴f(0）编码有效数M，但被编码的值依赖于指数域是否为零。

在C/C++中的float下s有1位，exp有k=8位，frac有n=23位，double变量下k=11,n=52

根据exp的值，编码分三种状况：

规格化值

最普遍的状况，当exp的位模式既不是全为0也不是全为1时，就都属于这种状况。此时，指数域解释为偏置形式，E=e-Bias（e减Bias），e是无符号数，而Bias是一个等于2^(k-1）-1的偏置值。由此产生了指数的取值范围，float:-126~127，double:-1022~1023

小数域解释为描述小数值f，在0~1之间，有效数定义为M=1+f，这样隐含了开头的1，免费获得了一个额外的精度位

非规格值

指数域全为0，就是非规格化的值，此时，指数值是E=1-Bias(Bias定义同上），有效数的值是M=f，没有开头的1。值得注意的是这种方法对0的表示。+0.0的浮点表示中，位模式全为0：符号位是0，指数域全0，小数域也是0。而-0.0只有符号位是1，其他全0

特殊值

指数域全为1，就是这类数。

当小数域全为0时，得到的值表示无穷，s=0正无穷，s=1负无穷。当这两个非常大的数相乘或对某数除以0可以得到溢出的结果。当小数域非0时结果被称作NaN，即not a number。一些运算结果不能表示为无穷或实数，就返回NaN，例如对-1开根号。

数值举例

以8位浮点举例，32位和64位的以此类推

0的表示：位表示0 0000 000（符号位，指数位，小数位，下同），e=0，E=1-7=-6，f=0,M=0,V=0

最小的非规格化数：（不考虑负数）

位表示 0 0000 001此时e=0;E=-6;f=1/8;M=1/8;V=1/512

即f=*2^(-1）+0*2^(-2）+0*2^(-3）

V=f*2^E

最大的非规格化数

位表示0 0000 111表示7/512

最小的规格化数

位表示0 0001 000

e=1;E=e-Bias=1-7=-6;f=0;M=1+f=1

V=M*2^E=8/512

最大的规格化数

位表示0 1110 111

e=14;E=14-7=7;f=7/8;M=15/8;V=240

对于双精度浮点

最小规格化数2.2*10^-308=1*2^-1022

最大规格化数1.8*10^308（2-epsilon)*2^1023

数字分布

作者：concreteHAM

什么是浮点数，不用我多说，这里我们要讨论的是规格化的任意进制浮点数的前导数字的概率分布。

在《计算机程序设计艺术》第二卷中做了非常深入的讨论，这里我从中精炼出要点。

例如：

⒉345E67

这是一个十进制规格化浮点数，前导数字就是2。

就只有一个“随机”的浮点数而言，讨论其分布式没有意义的，我们要讨论的是充分多个“随机”数进行的一系列运算后产生的浮点结果的前导数字分布。

假设现在有一巨大的浮点数集，依此对数集中每个浮点数都乘以2，其中有一个十进制浮点数F，它的前导数字是1，那么它底数可能的值范围就是1.000…～1.999…，乘以一个数字2，那么它的底数就变成2.000…～3.999…，很明显乘以2以前前导数字是1的浮点个数与现在前导数字是2、3的浮点个数相同。以此我们接下来分析。

对于一个b进制的浮点数，它的前导数字x范围就是0<x<b，设f(x）是上述数集的前导数字的概率密度函数（注：是密度函数），那么它在前导数字u和v之间（0）

∫[u,v]f(x)dx⑴

由前面所述的，对于一个小增量Δx，f(x）必须满足这样一个公式：

f⑴Δx=x*f(x）Δx⑵

很明显：

f(x)=f⑴/x⑶

两边在[1,b]之间进行积分，等号左边必定为1，右边等于f⑴ln(b）：

1=f⑴ln(b)⑷

得：f⑴=1/ln(b)带入⑶中：

f(x)=1/(x*ln(b))

那么利用⑴式得：

∫[u,v]1/(x*ln(b))dx

=n(v/u)/ln(b)⑸

这就是求前导数字的概率分布函数。

例如b=10进制时，前导数字为1的概率就是：

=ln（（1+1）/1）/n⑽

≈0.301

前导数字为9的概率就是：

=ln（（9+1）/9）/ln⑽

≈0.0458

以下是一个测试程序（Mathematica软件）：

T[n_,b_]:=Block[{res={},ran,i,a},

For[i=1,i<b,i++;

res=Append[res,0]

];

For[i=0,i<n,i++;

ran=Random[]*Random[]*Random[];充分打乱模拟实际运算中的浮点数

ran=Log[b,ran];

a=Floor[b^(ran-Floor[ran])];取出前导数字

res[[a]]++对前导数字个数统计

];

Return[res]

]

执行T[100000,10]，以10进制测试100000个浮点数，得到一个分布：

{30149,18821,13317,9674,7688,6256,5306,4655,4134}

和理论值相当接近。

关于如何取出前导数字如下：

设原浮点数为a*10^e>=0

其中a为底数范围（-10,-1]∪[1,10），e为指数，此时我们分离出底数部分和指数部分。

我们先对数求以10为底的对数从而分离出指数部分：

lg(a*10^e)=lg(a)+lg（10^e)=e+lg(a），因为a∈[1,10），所以lg(a）∈[0,1），而lg（10^e)=e是整数，所以lg(a*10^e）∈[e,e+1），因此我们可以通过向负无穷方向取整，也就是说取小于等于lg(a*10^e）的最大整数，lg(a）的值就等于lg(a*10^e）的值减去它取整后的数就可以了，10^(lg(a））也就是底数a，a像负无穷取整就是前导数字，如何得到e就不用多说了很简单。

原创文章，作者：来自网友投稿，如若转载，请注明出处：https://www.ladyww.cn/article/20230714158052.html

浮点(计算机领域术语)

计算