汉字编码对照表

时间:2025-02-14 07:35:16 单机游戏

汉字编码对照表主要涉及以下几种编码标准:

GB2312编码

概述:GB2312是中国国家标准汉字编码规范,收录了6763个汉字,包括一级汉字3755个和二级汉字3008个。它还包含了682个全角字符,如拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母等。

编码结构:GB2312采用两个字节表示一个汉字,第一个字节称为高字节,范围是0xB0-0xF7(十进制176-247),第二个字节称为低字节,范围是0xA0-0xFE(十进制160-254)。整个字符集分为94个区,每区94个位。

排列方式

第一级汉字(16-55区)按拼音字母顺序排列,同音字按笔形顺序(横、竖、撇、捺、折)排列,起笔相同的按第二笔依次类推。

第二级汉字(56-87区)按部首顺序排列。

特殊字符区:01-09区为特殊符号,10-15区没有编码,88-94区没有编码。

Big5编码

概述:Big5,又称大五码,主要用于香港和台湾地区,是一个繁体字编码。它收录了126个常用汉字和157个符号。

编码结构:每个汉字由两个字节构成,第一个字节的范围是0X81-0XFE(十进制129-255),第二个字节的范围不连续,分别为0X40-0X7E(十进制64-126)和0XA1-0XFE(十进制161-254)。

UTF-8编码

概述:UTF-8是一种可变长度的Unicode编码,能够表示所有Unicode字符,包括汉字。它使用1到4个字节表示一个字符,具体长度取决于字符的Unicode码点。

示例:UTF-8编码的汉字“一”的代码为`D2BB 4E00`,其中`D2BB`是前两个字节,`4E00`是后两个字节。

这些编码标准在计算机系统中用于表示和存储汉字,不同的编码标准适用于不同的应用场景和需求。在实际应用中,可以根据需要选择合适的编码标准。