作为全球最流行的操作系统之一,Windows操作系统自带了许多字体。
其中很多字体后面经常带有GB2312的字样,比如楷体_ GB2312、仿宋_ GB2312。这个GB2312到底是什么?
GB2312是一种中文字符集编码标准,全称是《信息交换用汉字编码字符集·基本集》。
它是中国国家标准,也是ISO/IEC 2022国际标准的一个子集。GB是“国标”两个字的首安母,2312则是编码顺序号。
早期中文字符与字母、特殊符号等的编码不统一,打出来的字母、汉字混编可读性差。
GB2312的出现解决了这个问题,它将常用的汉字和符号编码在了一个表中,使得不同计算机系统之间的文字互通成为了可能。
GB2312以汉字为主,同时也包含了拉丁字母、希腊字母、日文平假名和片假名、数字、标点符号等。
GB2312的编码方式是双字节编码,每个汉字占用两个字节,其中第一个字节的范围是0xB0-0xF7,第二个字节的范围是0xA1-0xFE。GB2312共收录了6763个汉字和682个非汉字字符。
但随着国际化交流越发频繁、计算机技术的不断发展,GB2312还是显示出了一定局限性,它主要范围还是中文字符。
于是Unicode编码应运而生,它融合了ASCII(主要针对英文字符)、GB2312等编码的优势。
Unicode编码使用32位编码,也就是4个字节,可以表示2的32次方个字符,足以支持全球所有的字符。
在Unicode编码中,每个字符都有一个唯一的数字编码,这个编码被称为Unicode码点。例如,拉丁字母A的Unicode码点是U+0041,中文汉字“中”的Unicode码点是U+4E2D。
Unicode编码的优点是它可以让不同的计算机和软件在处理不同语言的文本时达到互通的目的,从而避免了因为编码不一致而产生的乱码问题。
同时,Unicode编码也能够支持文本的全球化,使得不同语言的用户可以共享同一个文本文件。