ASCII((美国信息交换标准代码): 美国信息交换标准代码)是一种基于拉丁字母的计算机编码系统。 ASCII编码只能表示部分英文字母和数字,不能容纳非英语国家的字符。 ASCII 编码使用一个字节来存储一个字符。Unicode(Unicode,通用代码,Unicode)是计算机中使用的字符代码之一。由于世界上有很多国家,每个国家都定义了自己的编码标准,所以没有人能够理解彼此的编码,良好的沟通是不可能的,所以ISO(国际标准化组织)这一组织就出现了。 )决定定义一套编码方案来解决各国的编码问题。这种新的编码方案称为Unicode。 Unicode 没有指定如何存储与字符对应的二进制代码。以汉字“汉”为例,其Unicode码位1为0x6c49,对应的二进制数为110110001001001。二进制数有15位,因此至少需要2个字节来表示。可以想象,可能需要3、4 或更多字节来表示Unicode 字典中的后续字符。
UTF-8(8 位,通用字符集/Unicode 转换格式)是Unicode 的可变长度字符编码。 Unicode 是一种“字符集”。为每个“字符”分配一个唯一的ID(它的学名是Code Point/Code Point/Code Point)。 UTF-8是一种将“码位”转换为字节序列的“编码规则”(编码/解码可以理解为加密/解密的过程)。 UTF-8最大的特点之一是它是一种可变长度的编码方法。一个符号可以用1到4个字节来表示,不同的符号字节长度也不同。 UTF-8 以8 位(或1 个字节)为单位工作,UTF-16 以16 位(或2 个字节)为单位工作。也就是说,如果2个字节不够,就用4个字节,那么就用3个字节。不能使用,因为它是以2字节为单位的;UTF-32是以32位的4字节为单位进行处理的。如果4 个字节不够,请确保可以用8 个字节来处理。
GBK的正式名称为《汉字内码扩展规范》(GBK是“国家标准”和“扩展”汉语拼音的缩写,英文名称:Chinese Internal Code Supplement),由全国信息技术标准化技术委员会制定。我是中华民国的中国1995 年12 月1 日。 GBK是在GB2312的基础上扩展并兼容GB2312的标准。使用两个字节来表示一个字符。这包括字符集定义和特定的存储实现。
字符集和字符编码: 字符集是许多字符的集合。例如,GB2312包含了6000多个常用简体汉字,以及一些符号、数字、拼音等字符。字符编码是字符集的一种实现,它将字符集中的字符映射到特定的字节或字节序列。例如,Unicode只是一个字符集:UTF-8、UTF-16、UTF-32。这就是实际的字符编码规则。
版权声明:本文转载于网络,版权归作者所有。如有侵权,请联系本站编辑删除。