从一个笔试题看C语言中float向double的提升问题

从一个笔试题看C语言中floatdouble的提升问题

——lvyilong316

首先看一段来自一个笔试题的程序

float f=1.1;

       double d=1.1;

       cout<<(f==d)<<endl;  //0

这段代码输出0,那么为什么同为1.1doblefloat不相等呢?

我们知道floatdouble比较的时候后发生类型提升,也就是float会提升为double。我们先来看一下这样的情况:

float f=1.1;

       double d=1.1;

       double d1=f;

可以发现当由float提升到double后值发生了变化,这究竟是怎么回事呢?我们可以看一下这几个数字的十六进制表示,修改程序如下:


点击(此处)折叠或打开

  1. void show_bytes(unsigned char* start,int len)
  2. {
  3.    for(int i=0;i<len;i++)
  4.      printf("%x ",start[i]);
  5.    printf("\n");
  6. }
  7. int _tmain(int argc, _TCHAR* argv[])
  8. {
  9.    float f=1.1;
  10.    show_bytes((unsigned char*)&f,sizeof(f));
  11.    double d=1.1;
  12.    show_bytes((unsigned char*)&d,sizeof(d));
  13.    double d1=f;
  14.    show_bytes((unsigned char*)&d1,sizeof(d1));
  15.    return 0;
  16. }
输出结果:

输出结果分别为fdd1的十六进制表示,由于所用机器是32位小端方式存放字节,所以这三个数的十六进制表示应为:

f=0x3f 8c cc cd;

d=0x3f f1 99 99 99 99 99 9a;

d1=0x3f f1 99 99 a0 0 0 0;

下面按照IEEE 754的标准对三个数的二进制进行分析:

f=0011 1111 1000 1100 1100 1100 1100 1101   

对于单精度浮点数:

(1) 符号s 1位:0代表整数;

(2) 阶码E 8位:01111111代表0(注意阶码的表示方式:对于e的为模式既不全为0也不全为1的情况,E=e-BiasBias2k-1-1,对于单精度是127,双精度是1023)

(3) 尾数M  23位:000 1100 1100 1100 1100 1101代表1+2-4+2-5+2-8+.(注意尾数的表示方式M=1+ff=0.fn-1f1f0)

所以这个数的实际值为

d=0011 1111 1111 0001 1001 1001 1001 1001 1001 1001 1001 1001 1001 1001 1001 1010

对于双精度浮点数:

(1) 符号s 1位:0代表整数;

(2) 阶码E 11位:01111111111代表0(注意阶码的表示方式:对于e的为模式既不全为0也不全为1的情况,E=e-BiasBias2k-1-1,对于单精度是127,双精度是1023)

(3) 尾数M  52位:0001 1001 1001 1001 1001 1001 1001 1001 1001 1001 1001 1001 1010代表1+2-4+2-5+2-8+.(注意尾数的表示方式M=1+ff=0.fn-1f1f0),可以看出双进度的尾数要比单精度尾数更加精确。

所以这个数的实际值也为

但是要注意虽然df都约为1.1,但实际值是不相等的,d要比f更加接近于1.1,因为d的尾数有更高的精度。

d1=0011 1111 1111 0001 1001 1001 1001 1001 1010 0000 0000 0000.

对于双精度浮点数:

(1) 符号s 1位:0代表整数;

(2) 阶码E 11位:01111111111代表0(注意阶码的表示方式:对于e的为模式既不全为0也不全为1的情况,E=e-BiasBias2k-1-1,对于单精度是127,双精度是1023)

(3) 尾数M  52位:0001 1001 1001 1001 1001 1010 0000 0000 0000.代表1+2-4+2-5+2-8+.(注意尾数的表示方式M=1+ff=0.fn-1f1f0)

重点出现了:可以看出d1的阶码的值和fd都是一样的,但是尾数Md不同,对比f的尾数000 1100 1100 1100 1100 1101发现和d1的值是相同的,只是后面补了些0。也就是说float提升为double数的精度并没有提高(值没变),既然精度没有提高那和d肯定是不相等的,因为dfd1有更高的精度,更接近于1.

为了验证float提升为double后值没有改变,有如下语句:

cout<<(d1==f)<<endl;  //输出1

同时我们可以得到如下结论:

(1) float提升为double,是对阶码E和尾数M的扩展;

(2) 阶码E和尾数M的扩展方式都按照保持值不变的原则扩展。

(3) float提升为double后值保持不变,精度不增加。

有了以上结论,我们将上述程序中的1.1改为1.5,猜想下fdd1之间相等吗?代码如下:


点击(此处)折叠或打开

  1. int _tmain(int argc, _TCHAR* argv[])
  2. {
  3.   float f=1.5;
  4.   show_bytes((unsigned char*)&f,sizeof(f));
  5.   double d=1.5;
  6.   show_bytes((unsigned char*)&d,sizeof(d));
  7.   double d1=1.5;
  8.   show_bytes((unsigned char*)&d1,sizeof(d1));
  9.   cout<<(d==d1)<<endl;
  10.   cout<<(f==d)<<endl;
  11.   return 0;
  12. }

运行结果:

可以看到fdd1都是相等的,因为1.5用浮点数是可以精确表示的,所以float1.5double1.5都是准确的1.5,所以float提升为double依然是准确的1.5,当然三个数相等。而float1.1提升为double后和double1.1不等的原因归根结底是因为1.1不能用浮点数精确表示,float1.1double1.1就不想等,float提升后值不变依然不等。

郑重声明:本站内容如果来自互联网及其他传播媒体,其版权均属原媒体及文章作者所有。转载目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。