1.2 数据存储的字节序与位序
在各种计算机体系结构中,对于字节、字等的存储机制有所不同。对于同一个数值,在不同的计算机体系中会以相反的顺序记录。例如,十六进制数值12345678H,在一种计算机架构下存储为12345678H,而在另一种计算机架构下会被存储为78563412H。这就是按照不同的字节序进行存储的。所以所谓的字节序指的就是长度跨越多个字节的数据的存放形式。
1.2.1 Endian的含义
目前的存储器,多以字节为访问的最小单元,当一个逻辑上的单元必须分割为物理上的若干单元时就存在了先放谁后放谁的问题,于是Endian的问题应运而生了。对于不同的存储方法,就有Big-endian和Little-endian两个描述。
Big-endian和Little-endian这两个术语来自于Jonathan Swift的《格利佛游记》。其中交战的两个派别无法就应该从哪一端——小端(Little-end)还是大端(Big-end)打开一个半熟的鸡蛋达成一致。支持从小端打开鸡蛋的一派被称为Little-endian,支持从大端打开鸡蛋的一派则被称为Big-endian。
在那个时代,Swift是在讽刺英国和法国之间的持续冲突。后来,一位网络协议的早期开创者Danny Cohen,第一次使用这两个术语来指代字节顺序,后来这个术语被广泛接纳了。
1.2.2 Little-endian的含义
Little-endian是一种小值的一端(或序列中较不典型的值)存储在前的顺序,也就是说,最低字节存放在最低位,最高字节存放在最高位,反序排列。
依照人们的习惯来说,我们的文字及数字都是以从左到右的方式排列的,这似乎也被认为是自然的存储字符和数字方式。然而,Little-endian却恰恰与我们的习惯相反。例如,按照我们的习惯写一个十六进制数值56AB78EFH,把这个数值以Little-endian的方式表达出来,则是EF78AB56H。
1.2.3 Big-endian的含义
Big-endian是一种大值的一端(或序列中更典型值)存在前面(在最小的存储地址)的顺序,也就是最高字节在地址最低位,最低字节在地址最高位,依次排列。
的方式与人们的书写习惯一致。例如,按照我们的习惯写一个十六进制数值56AB78EFH,把这个数值以Big-endian的方式表达出来,也是56AB78EFH。
1.2.4 字节序与CPU架构的关系
谈到字节序的问题,必然涉及CPU的架构。CPU从架构上区分,有x86、x86-64、IA-64等;从指令集上区分,有CISC、RISC等。
1.CPU的架构
(1)x86架构
x86又称IA32,即Intel Architecture 32(Intel 32位架构)。它是Intel为其第一块16位CPU(i8086)专门开发的。IBM 1981年推出的世界第一台微机中的CPU——i8088 (i8086简化版)使用的也是x86架构。同时计算机中为提高浮点数据处理能力而增加了x87芯片,以后就将x86指令集和x87指令集统称为x86架构。
虽然随着CPU技术的不断发展,Intel陆续研制出更新型的i80386、i80486、Pentium系列及至强系列CPU,但为了保证计算机能继续运行以往开发的各类应用程序以保护和继承丰富的软件资源,所以Intel公司所生产的所有CPU仍然继续使用x86架构,所以它的CPU仍属于x86系列。由于Intel x86系列及其兼容CPU(如AMD、VIA/Cyrix等)都使用x86架构,所以就形成了今天庞大的x86系列及兼容CPU阵容。
目前基本上所有x86架构的CPU对数据的处理,都采用Little-endian字节序。
(2)x86-64架构
x86-64架构是由AMD公司设计的,也称为AMD 64。它可以在同一时间内处理64位的整数运算,并兼容于x86-32架构。其中支持64位逻辑定址,同时提供转换为32位定址选项;但数据操作指令默认为32位和8位,提供转换成64位和16位的选项;支持常规用途寄存器,如果是32位运算操作,就要将结果扩展成完整的64位。这样,指令中有“直接执行”和“转换执行”的区别,其指令字段是8位或32位,可以避免字段过长。
x86-64架构的CPU对数据的处理,也采用Little-endian字节序。
(3)IA-64架构
IA-64架构是Intel为了全面提高以前IA-32处理器的运算性能,和HP公司共同开发了6年的64位CPU架构,是专为服务器市场开发的一种全新的处理器。它放弃了以前的x86架构,认为它严重阻碍了处理器的性能提高。
IA-64架构的最初应用是英特尔的Itanium(安腾)系列服务器处理器,后来的Itanium 2系列处理器也采用这一架构。由于它不能很好地解决与以前32位应用程序的兼容,所以应用受到较大的限制,尽管目前Intel采取了各种软、硬方法来弥补这一不足,但随着AMD x86-64架构处理器的全面投入,Intel的IA-64架构的这两款处理器前景不容乐观。
IA-64架构的CPU对数据的处理,字节序是可配置的,既可以采用Little-endian,也可以采用Big-endian。
2.CPU的指令集
(1)CISC指令集
CISC指令集,也称为复杂指令集,是“Complex Instruction Set Computer”的缩写。
在CISC微处理器中,程序的各条指令是按顺序串行执行的,每条指令中的各个操作也是按顺序串行执行的。顺序执行的优点是控制简单,但计算机各部分的利用率不高,执行速度慢。
Intel生产的x86架构(也就是IA-32架构)CPU及其兼容如AMD、VIA等CPU,都属于CISC指令集的范畴。
CISC指令集的CPU对数据的处理,基本上都采用Little-endian字节序。
(2)RISC指令集
RISC是英文“Reduced Instruction Set Computer”的缩写,中文意思是“精简指令集”。
RISC是在CISC指令集基础上发展起来的。有人对CISC机进行测试表明,各种指令的使用频度相当悬殊,最常使用的是一些比较简单的指令,它们仅占指令总数的20%,但在程序中出现的频度却占80%。复杂的指令系统必然增加微处理器的复杂性,使处理器的研制时间长,成本高。并且复杂指令需要复杂的操作,必然会降低计算机的速度。基于上述原因,20世纪80年代RISC指令集CPU诞生了。相对于CISC指令集CPU,RISC的CPU不仅精简了指令系统,还采用了一种叫做“超标量和超流水线结构”,大大增加了并行处理能力。
RISC指令集是高性能CPU的发展方向,相比而言,RISC的指令格式统一,种类比较少,寻址方式也比复杂指令集少,当然处理速度就提高很多了。目前在中高档服务器中普遍采用这一指令系统的CPU,特别是高档服务器几乎全都采用RISC指令集的CPU。RISC指令集CPU与Intel和AMD的CISC指令集CPU在软件和硬件上都不兼容。
目前,在中高档服务器中采用RISC指令的CPU主要有PowerPC处理器、SPARC处理器、PA-RISC处理器、MIPS处理器、Alpha处理器等。
RISC指令集的CPU对数据的处理,大部分都采用Big-endian字节序。
1.2.5 位序的含义
前面讲解了字节序有Little-endian和Big-endian之分,然而一个字节是由8位构成的,CPU存储一个字节的数据时其字节内的8个位之间的顺序是否也有Little-endian和Big-endian之分呢?
例如,一个十六进制数值8AH,换算成二进制为10001010B,按照Little-endian的位序书写应该是01010001B,按照Big-endian的位序书写则是10001010B。
实际上,现在的CPU和程序几乎都是设计成Big-endian位序的,也就是说无论在Big-endian还是在Little-endian字节顺序中,每一个字节中的8位里面都是使用Big-endian。