欢迎来到小居数码网-一家分享数码知识,生活小常识的网站,希望可以帮助到您。

当前位置:生活小常识 > 数码知识 >
优质

最常用的编码方式有哪些(基本编码规则怎么编码)

数码知识

周嵩杰优秀作者

原创内容 来源:小居数码网 时间:2024-08-15 14:51:01 阅读() 收藏:40 分享:77

导读:您正在阅读的是关于【数码知识】的问题,本文由科普作家协会,生活小能手,著名生活达人等整理监督编写。本文有1390个文字,大小约为6KB,预计阅读时间4分钟。

这篇教程会帮你梳理清楚各种编码规则是怎么来的,让你对计算机的编码有个全方位认知。

基本编码规则怎么编码

我们常用的编码大概有这么几种, ASCII,GBK, GB2312,UTF8,UTF16,UTF32

ASCII

计算机问世开始,大家都用的 ascii 编码格式,定义为 8 个字节,且首字节恒定为0,因此最多可以表示 128 种字符

GB2312

ascii 虽然可以很好地表示英文,(毕竟英文一共只有26个字母),但是对于中国用户来说,ascii 编码方式肯定是无法支持所有汉字的,因此中国政府推出另一套编码规范,由中国国家标准总局1980年发布,1981年5月1日开始使用。

GB2312规定对收录的每个字符采用两个字节表示,第一个字节为“高字节”,对应94个区;第二个字节为“低字节”,对应94个位置。所以它的区位码范围是:0101-9494。区号和位号分别加上0xA0就是GB2312编码(因为限定最大区位码是 9494,因此不会造成区码位加上 0xA0 之后产生了问题)。例如最后一个码位是9494,区号和位号分别转换成十六进制是5E5E,0x5E+0xA0=0xFE,所以该码位的GB2312编码是FEFE。

GB2312编码范围:A1A1-FEFE,其中汉字的编码范围为B0A1-F7FE,第一字节0xB0-0xF7(对应区号:16-87),第二个字节0xA1-0xFE(对应位号:01-94)

从另一个角度理解中文编码为: 一个字节编码如果小于等于127,那么它的含义和 ascii编码一样,但是两个大于 127 的字节码拼接在一起的时候,可以表示某个汉字。前面的一个字节(称之为高字节)从0xA1用到 0xF7,后面一个字节(低字节)从0xA1到0xFE,这样我们就可以组合出大约7000多个简体汉字了。在这些编码里,还把数学符号、罗马希腊的 字母、日文的假名们都编进去了,连在ASCII里本来就有的数字、标点、字母都统统重新编了两个字节长的编码,这就是常说的"全角"字符,而原来在127号以下的那些就叫"半角"字符了。

GBK

由于GB 2312-80只收录6763个汉字,有不少汉字,如部分在GB 2312-80推出以后才简化的汉字(如"啰"),部分人名用字,台湾及香港使用的繁体字,日语及朝鲜语汉字等,并未有收录在内。于是厂商微软利用GB 2312-80未使用的编码空间,收录GB 13000.1-93全部字符制定了GBK编码。根据微软资料,GBK是对GB2312-80的扩展,也就是CP936字码表 (Code Page 936)的扩展(之前CP936和GB 2312-80一模一样),最早实现于Windows 95简体中文版。虽然GBK收录GB 13000.1-93的全部字符,但编码方式并不相同。GBK自身并非国家标准,只是曾由国家技术监督局标准化司、电子工业部科技与质量监督司公布为"技术规范指导性文件"。原始GB13000一直未被业界采用,后续国家标准GB18030技术上兼容GBK而非GB13000。

GB18030

GB 18030,全称:国家标准GB 18030-2005《信息技术 中文编码字符集》,是中华人民共和国现时最新的内码字集,是GB 18030-2000《信息技术 信息交换用汉字编码字符集 基本资料的扩充》的修订版。与GB 2312-1980完全兼容,与GBK基本兼容,支持GB 13000及Unicode的全部统一汉字,共收录汉字70244个。

Unicode

从上面可以看出,不同的国家都在尝试制定自己的编码规范,那么这就会增加跨国沟通的成本。 因此 unicode 的主要思想是可以给世界上所有的字符,都定义一个唯一标识,比如,U+0639表示阿拉伯字母Ain,U+0041表示英语的大写字母A,U+4E25表示汉字严。具体的符号对应表,可以查询unicode.org,或者专门的汉字对应表。

可以理解 Unicode 是一个思路,但是却不够实用。 因为当我们将一篇文章转换成 unicode 编码之后, 会返现不可读。 原因在于有些字符用一个字节表示,有些字符用两个字节表示,有的甚至更多,我们永远无法知道,对于一个字节来说,它表示的是一个独立字符还是某个字符的组成部分。

因为 unicode 最大编码是4个字节,过去为了使用 unicode 编码,只能在小于四字节编码的符号之前,用0补齐,凑成四字节,但是存储开销也随之增大不少。

UTF8 (Unicode 编码的一种实现)

UTF8 的出现很好地解决了 unicode 中间编码不可读的问题,定义了两条规则如下:

  1. 对于单字节的符号:字节的第一位设为0,后面7位为这个符号的 Unicode 码。因此对于英语字母,UTF-8 编码和 ASCII 码是相同的;
  2. 对于n字节的符号(n > 1):第一个字节的前n位都设为1,第n + 1位设为0,后面字节的前两位一律设为10。剩下的没有提及的二进制位,全部为这个符号的 Unicode 码。

其他实现方式还包括 UTF-16(字符用两个字节或四个字节表示)和 UTF-32(字符用四个字节表示),不过在互联网上基本不用。

这里有些有趣的规则值得我们注意:

  1. 字节开头为0的,一定表示 ascii 编码
  2. 字节开头是10的,一定是某个字符的组成部分
  3. 字节开头是110 的(范围: 0xC0 ~ 0xDF),一定代表了双字节编码的开头,后面一定是一个 10 开头的字节
  4. 字节开头是 1110 的 (范围: 0xE0 ~ 0xEF),一定是代表了三字节编码的开头,后面一定是两个 10 开头的字节

在这么一套规则下,计算器可以很容易知道每个字节代表什么含义,是几个字符的编码,应该如何将字节组合编码。

上面就是小居数码小编今天给大家介绍的关于(基本编码规则怎么编码)的全部内容,希望可以帮助到你,想了解更多关于数码知识的问题,欢迎关注我们,并收藏,转发,分享。

94%的朋友还想知道的:

(231)个朋友认为回复得到帮助。

部分文章信息来源于以及网友投稿,转载请说明出处。

本文标题:最常用的编码方式有哪些(基本编码规则怎么编码):http://sjzlt.cn/shuma/155846.html

猜你喜欢