字符集是什么意思 字符集是什么

字符(Character)它是各种文字和标记的总称,包括各种文字、标点符号、符号图片、数据等 。字符集(Character set)是多个字符的组合,字符集种类繁多,每个字符集中包含的字符数量不同,一般字符集名称:ASCII 字符集,GB2312 字符集,BIG5 字符集、 GB18030 字符集、Unicode 字符集等 。为了准确处理各种字符集文本,计算机需要进行字符编码,方便计算机识别和存储各种文本 。中文文本数量众多,也分为简体中文和繁体中文两种不同的书写规则 。计算机最初是根据英文单字节字符定制的 。因此,编号中文字符是中文信息交流的技术基础 。

字符集是什么意思 字符集是什么

文章插图
ASCII 字符集名字来历ASCII(American Standard Code for Information Interchange,美国信息交换标准编号)是一套基于罗马字母表的计算机编码系统 。
特性【字符集是什么意思 字符集是什么】它主要用于显示现代英语和其他西欧语言 。这是最常用的单字节编码系统,相当于国家标准 ISO 646 。
包括内容控制字符:回车、退格、换行键等 。
可显示字符:英文大小写字符、阿拉伯数字和西文符号 。
GB2312名字来历GB2312 也称为 GB2312-80 字符集,全称为“信息交换用汉字编码字符集·基本集”,由原中国国家标准总局公布,1981年 年 5 月 1 日实施 。
特性GB2312 是中国国家标准的简体中文字符集 。它所包含的汉字已经被覆盖了 。99.75%的使用频率,基本满足了计算机解决汉字的必要性 。广泛应用于中国大陆和新加坡 。
包括内容GB2312 包括简化汉字和一般标记、编号、数据、拉丁字母、日文假名、希腊字母、俄罗斯字母、汉字拼音标记、中文注音字母 。7445 图形字符 。其中包括 6763 汉字,其中一级汉字 3755 二级汉字 。二级汉字 3008 个别;包括拉丁字母、希腊字母、日本平假名和片假名、俄罗斯西里尔字母在内的字母 682 全角字符 。
技术特征(1)分区表示:
GB2312 中国对所收汉字进行了“分区”解决方案,每个区都含有汉字 94 汉字/标记 。这种表示方法也叫区位码 。
每个区域包含的字符如下:01-09 区域为特殊字符;16-555 区域为一级汉字,按拼音排列;56-87 区域为二级汉字,按部首/笔画排序;10-15 区及 88-94 区域没有编号 。
(2)双字节表示
两个字节前面的字节是第一字节,后面的字节是第二字节 。习惯上称第一字节为“高字节” ,第二字节被称为“低字节” 。
使用了“高位字节” 将0xa1-0xF7( 01-87 加上区域号 0xA0),使用“低位字节” 0xa1-0xFE( 01-94 加上 0xA0) 。
BIG5名字来历又称大五码或五大码,1984 台湾财团法人信息产业策进会和五家软件公司宏碁 (Acer)、神通 (MiTAC)、佳佳、零壹 (Zero One)、大家 (FIC)成立,故称大五码 。
Big5 代码的产生是由于当时台湾省不同厂商发布了不同的编号,如益天码、IBM PS55、王安码等,彼此不能适应;另一方面,台湾省政府当时并没有发布官方的汉字代码,而是中国大陆的汉字代码 GB2312 编号也不包含繁体中的文字 。
GB18030名字来历GB 18030 的全称为 GB18030-2000《信息交换用汉字编码字符集基本集的扩展》 2000 年 3 月 17 2001年发布的新汉字编码国家标准,2001年 年 8 月 31 未来在中国市场发布的软件必须符合本标准 。
特性GB 18030 经过广泛参与和讨论,国内外知名信息技术产业企业、信息产业部、原国家质量技术监督局共同实施了字符集规范的引入 。
GB 18030 字符集规范了汉字、日文假名、朝鲜语和中国少数民族文字组成的大字符集的计算机编码问题 。标准字符总编号空间超过标准字符总编号 150 一万个号位,包括在内 27484 汉字,涵盖汉语、日语、朝鲜语和中国少数民族文字 。满足中国大陆、香港、台湾、日本、韩国等东亚地区信息交换多文种、字量、多功能、统一编码格式的需要 。并且与 Unicode 3.0 版本适应,弥补 Unicode “统一汉字扩展字词汇” A”内容 。并适用于之前的大国字符编码规范(GB2312,GB13000.1) 。
Unicode名字来历Unicode 字符集编号是 Universal Multiple-Octet Coded Character Set 通用多八位编号字符集的简称是一个名字 Unicode 学术学会(Unicode Consortium)组织制定的字符编码系统,适用于世界各地各种不同语言的书面文字的交换、处理和表达 。该编号于 1990 年起研发,1994 年正式公布,最新版是 2022 年 5 月 7 日的 Unicode 12.1.0 。
特点Unicode 它是一种在计算机上使用的字符代码 。它为每种语言中的每个字符设置了统一和唯一的二进制代码,以适应跨语言和跨平台的文本转换和处理规则 。
编码方法Unicode 标准始终应用十六进制数据,并在写作时在前缀上添加“前缀”U 例如,字母“A”的编码为 004116 与字符“”的编码为 20AC16 。A编号为“”U 0041” 。
UTF-8 编号UTF-8 是 Unicode 其中一种使用方式 。UTF 是 Unicode Tranformation Format,即把 Unicode 转向某种格式的含义 。
UTF-8 方便不同计算机之间应用数据传输不同语言和编号的文字,促进双字节 Unicode 它可以正确地传输到现有解决单字节的系统中 。
UTF-8 应用可变长短字节进行存储 Unicode 字符,比如 ASCII 正常使用字母 1 字节存储、重音文本、希腊字母或西里尔字母 2 字节存储,普通汉字应使用 3 字节 。协助平面字符则使用平面字符 。4 字节 。
UTF-8(8-bit Unicode Transformation Format)是一种对于 Unicode 可变长短字符编码,又称万国码 。由 Ken Thompson 于 1992 年建立 。已经标准化为 RFC 3629 。UTF-8 用 1 到 6 个字节编号 UNICODE 字符 。在网页上使用的同一页面可以显示中文简体繁体等语言(如英语、日语、韩语) 。
汉字编码字符集汉字编码字符集是根据一组无歧义规则定义的汉字字汇的有序集合 。每个汉字与其代码表示之间都有一一对应的关系 。在信息技术中,用于汉字数据的显示、交换、传输、解决、存储、输入和呈现 。国际标准化组织 ISO 在这个概念中,“无歧义规则”非常重要 。制定这些标准的目的是保证编号的唯一性,防止重码 。它包括以下内容:
编号目标:专用或通用,仅用于信息交换,或也可用于信息处理 。
编号系统架构、编号空间安排 。
收字原则:确定哪些字符的收入 。
排序方法:汉字在字符集中排序规则 。
是否分级:如何分级 。
编号原则:大部分按字形编码 。因此,需要制定认可或鉴定规则和对例外的约定 。
与其他编号字符集的对应关系 。
事实上, 在信息技术中,汉字编码字符集无一例外地还包括非汉字符号和拉丁文, 希腊文、 西里尔文等其他文字的字符 。或者与其他更多文字的字符共存在一个巨大的编号字符集中 。