1.1.4 编码格式_C编程从入门到实践-QQ阅读男生中文科幻网

上QQ阅读APP看书，第一时间看更新

1.1.4 编码格式

1．ASCII码

ASCII（American Standard Code for Information Interchange，美国信息交换标准代码），是基于拉丁字母的一套计算机编码系统，主要用于表示现代英语和其他西欧语言。ASCII码是现今最通用的单字节编码系统，并等同于国际标准ISO/IEC 646。

一个英文字母（不分大小写）占1字节空间，一个中文汉字占2字节空间。一个二进制数字序列在计算机中为一个数字单元，一般为8位二进制数。它的最小值为0，最大值为255。例如，一个ASCII码就是1字节。

2．Unicode编码

Unicode（又称为统一码、万国码、单一码）是计算机科学领域里的一项业界标准，包括字符集、编码方案等。Unicode编码是为了解决传统字符编码方案的局限性而产生的，它为每种语言中的每个字符都设定了统一并且唯一的二进制编码，以满足跨语言和跨平台进行文本转换、处理的要求。

最初Unicode编码的长度是固定的16位，也就是2字节代表一个字符，这样可以表示65536个字符。显然，若要表示各种语言中的所有字符，这是远远不够的。Unicode 4.0规范考虑到了这种情况，定义了一组附加字符编码。附加字符编码采用两个16位来表示，这样最多可以定义1048576个附加字符。目前，Unicode 4.0规范只定义了45960个附加字符。

Unicode只是一个编码规范。目前实际实现的Unicode编码只要有3种：UTF-8、UCS-2和UTF-16。3种Unicode字符集之间可以按照相关规范进行转换。

3．UTF-8编码

UTF-8（8-bit Unicode Transformation Format）是一种针对Unicode的可变长度的字符编码，又称为万国码。UTF-8由Ken Thompson于1992年创建，现在已经将它标准化为RFC 3629。UTF-8用1～6字节编码Unicode字符。在网页上它可以统一页面显示中文简体/繁体及其他语言（如英文、日文、韩文）。一个UTF-8编码的英文字符占用1字节；一个UTF-8编码的中文（含繁体）字符少数情况下占用3字节，多数情况下占用4字节；一个UTF-8编码的数字占用1字节。