Question

我已经读过双精度和单精度之间的区别。但是，在大多数情况下，float和double似乎是可以互换的，即使用一个或另一个似乎不会影响结果。这是真的吗？浮动和双打什么时候可以互换？它们之间有什么区别？

Answer 1

巨大差异。

顾名思义，double的精度是float ^[1]的2倍。通常，double具有15个十进制数字的精度，而float具有7个。

以下是计算位数的方式：

double有52个尾数位+ 1个隐藏位：log（2 ⁵³）÷log（10）= 15.95位数

float有23个尾数位+ 1个隐藏位：log（2 ²⁴）÷log（10）= 7.22位

这种精确度损失可能导致在重复计算时累积更大的截断误差，例如

float a = 1.f / 81;
float b = 0;
for (int i = 0; i < 729; ++ i)
    b += a;
printf("%.7g\n", b); // prints 9.000023

，而

double a = 1.0 / 81;
double b = 0;
for (int i = 0; i < 729; ++ i)
    b += a;
printf("%.15g\n", b); // prints 8.99999999999996

此外，float的最大值约为3e38，但是double约为1.7e308，因此使用float可以命中“无穷大”（即一个特殊的浮点数）比简单的double更容易，例如计算60的阶乘。

在测试期间，可能有一些测试用例包含这些巨大的数字，如果您使用浮点数，可能会导致您的程序失败。

当然，有时甚至double都不够准确，因此我们有时会long double ^[1]（上面的例子在Mac上给出了9.000000000000000066），但是所有浮点类型都会受到舍入错误的影响，因此如果精度非常重要（例如货币处理），则应使用int或分数类。

此外，不要使用+=来汇总大量浮点数，因为错误会很快累积。如果您使用的是Python，请使用fsum。否则，请尝试实施Kahan summation algorithm。

^{[1]：C和C ++标准没有指定float，double和long double的表示。所有这三个都可以实现为IEEE双精度。然而，对于大多数体系结构（gcc，MSVC; x86，x64，ARM）float 确实是IEEE单精度浮点数（binary32）和double 是 IEEE双精度浮点数（binary64）。}

Answer 2

以下是标准C99（ISO-IEC 98996.2.5§10）或C ++ 2003（ISO-IEC 14882-20033.1.9§8）标准所说的内容：

有三种浮点类型：float，double和long double。类型double提供的精度至少与float一样，类型long double提供的精度至少与double一样。类型float的值集是类型double的值集的子集;类型double的值集是long double类型值集的子集。

C ++标准补充说：

浮点类型的值表示是实现定义的。

我建议您深入了解一下涵盖IEEE浮点标准的优秀What Every Computer Scientist Should Know About Floating-Point Arithmetic。您将了解表示细节，并且您将意识到在幅度和精度之间存在权衡。浮点表示的精度随着幅度的减小而增加，因此-1和1之间的浮点数是精度最高的。

Answer 3

给定二次方程： x ² - 4.0000000 x + 3.9999999 = 0，确切根到10位有效数字是 r ₁ = 2.000316228和 r ₂ = 1.999683772。

使用float和double，我们可以编写测试程序：

#include <stdio.h>
#include <math.h>

void dbl_solve(double a, double b, double c)
{
    double d = b*b - 4.0*a*c;
    double sd = sqrt(d);
    double r1 = (-b + sd) / (2.0*a);
    double r2 = (-b - sd) / (2.0*a);
    printf("%.5f\t%.5f\n", r1, r2);
}

void flt_solve(float a, float b, float c)
{
    float d = b*b - 4.0f*a*c;
    float sd = sqrtf(d);
    float r1 = (-b + sd) / (2.0f*a);
    float r2 = (-b - sd) / (2.0f*a);
    printf("%.5f\t%.5f\n", r1, r2);
}   

int main(void)
{
    float fa = 1.0f;
    float fb = -4.0000000f;
    float fc = 3.9999999f;
    double da = 1.0;
    double db = -4.0000000;
    double dc = 3.9999999;
    flt_solve(fa, fb, fc);
    dbl_solve(da, db, dc);
    return 0;
}

运行程序会给我：

2.00000 2.00000
2.00032 1.99968

请注意，这些数字并不大，但您仍然可以使用float获得取消效果。

（事实上，上述不是使用单精度或双精度浮点数求解二次方程的最佳方法，但即使使用more stable method，答案也保持不变。）

Answer 4

双精度是64，单精度（float）是32位。
双尾有一个更大的尾数（实数的整数位）。
双倍的任何不准确之处都会更小。

Answer 5

浮点计算中涉及的数字大小并不是最相关的。这是正在执行的相关计算。

本质上，如果您正在执行计算并且结果是无理数或重复的小数，那么当该数被压缩到您正在使用的有限大小数据结构时，将会出现舍入错误。由于double是float的两倍，因此舍入误差会小很多。

测试可能会特别使用可能导致此类错误的数字，因此测试您在代码中使用了相应的类型。

Answer 6

浮点数的精度低于双精度数。虽然您已经知道，但请阅读 What WE Should Know About Floating-Point Arithmetic以便更好地理解。

Answer 7

类型float，32位长，精度为7位。虽然它可以存储非常大或非常小范围（+/- 3.4 * 10 ^ 38或* 10 ^ -38）的值，但它只有7位有效数字。

类型为double，64位长，具有更大的范围（* 10 ^ + / - 308）和15位精度。

类型long double名义上是80位，但是给定的编译器/ OS配对可以将其存储为12-16个字节以用于对齐目的。 long double有一个非常庞大的指数，应该有19位数的精度。微软凭借其无限的智慧，将长双倍限制为8字节，与普通双重相同。

一般来说，只需在需要浮点值/变量时使用double类型。默认情况下，表达式中使用的文字浮点值将被视为双精度值，并且返回浮点值的大多数数学函数都会返回双精度值。如果你只使用双倍，你会省去许多头痛和类型。

Answer 8

我遇到了一个错误，让我永远弄明白，并且可能会给你一个漂浮精度的好例子。

#include <iostream>
#include <iomanip>

int main(){
  for(float t=0;t<1;t+=0.01){
     std::cout << std::fixed << std::setprecision(6) << t << std::endl;
  }
}

输出

正如您在0.83之后看到的那样，精度显着下降。

但是，如果我将t设置为double，则不会发生此类问题。

我花了五个小时才意识到这个小错误，这毁了我的程序。

Answer 9

使用浮点数时，您不能相信您的本地测试与服务器端的测试完全相同。环境和编译器可能与您本地系统和运行最终测试的位置不同。我之前在一些TopCoder比赛中已经多次看到这个问题，特别是如果你试图比较两个浮点数。

Answer 10

内置比较操作的不同之处在于，当您将2个数字与浮点数进行比较时，数据类型的差异（即浮点数或双数字）可能会导致不同的结果。

Answer 11

如果使用嵌入式处理，最终底层硬件（例如FPGA或某些特定的处理器/微控制器模型）将在硬件中以最佳方式实现浮动，而double会使用软件例程。因此，如果浮点数的精度足以应付需求，则程序会以浮点数执行的速度快一些，然后再执行两次。如其他答案所述，请当心累积错误。

Answer 12

float和double的区别在于double具有比float变量更大的精度值。当您将变量声明为float时，它仅允许在小数点后输入6个小数位。也就是说，对于float变量 float f= 2.3333333; //。后的7个小数位。是您可以存储的最大值

即使您存储的值在小数点后超过六位，它也不会存储整数，而只会存储到小数点后的前六位。另外，如果您尝试在此变量的小数点后存储7位以上的数字，则会收到错误消息。在这种情况下，您需要按以下方式对其进行初始化- float f= 2.3333334443f; //然后编译器会将其解释为2.3333334

如果是Double，它将存储小数点后最多15位数字。例如：double d=1.222222345675423; //小数点后15位

Answer 13

共有三种浮点类型：

浮动
double
长双倍

一个简单的维恩图将说明：类型值的集合

Answer 14

与int（整数）不同，float有一个小数点，double也是如此。但两者之间的区别在于double的详细程度是float的两倍，这意味着它可以使小数点后的数字加倍。

float和double有什么区别？

14 个答案: