国家数字图书馆中文信息处理
国家数字图书馆中文信息处理 □翟喜奎/国家图书馆业务管理处北京100081 摘要: 国家数字图书馆负有重点收藏和长期保存中文数字资源,建立中文数字资源保障中心,建设中文数 字资源查询基地的责任。因此,中文信息处理在国家数字图书馆中的应用具有重要作用。本文对中文信息处 理以及国家图书馆数字图书馆中文信息处理标准规范进行介绍;指出中文信息处理标准规范在国家数字图书 馆建设中的必要性和重大意义。 关键词: 数字图书馆,中文信息处理,汉字属性字典 1引言 数字图书馆是面向未来互联网发展的信息管理模式。以数字资源的制作、存储、管理、传 输和服务为主要特征的数字图书馆技术,是21世纪国际科技文化竞争的焦点之一。中国国家 图书馆数字图书馆是信息技术和网络技术发展的必然结果,是传统图书馆在信息网络时代的拓 展与延伸。根据国家图书馆的职能,国家图书馆数字图书馆在数字资源建设方面,全面收藏中 文文献信息,是全球最大的中文文献提供中心;负有重点收藏和长期保存中文数字资源、建立 中文数字资源保障中心、建设中文数字资源查询基地的责任⑴。因此,中文信息处理在国家 数字图书馆建设中具有重要作用。 中文信息处理包括汉字编码字符集、中文信息输入、输出、中文信息处理基础研究等各个 方面。为了规范、指导数字图书馆建设,国家图书馆制定了一系列数字图书馆的相关标准规范。 中文信息处理是国家图书馆数字图书馆标准规的一部分。主要包括五个方面内容:1、汉字属 性字典规范;2、古籍用字规范;3、生僻字、避讳字处理规范;4、计算机中文信息处理规范; 5、中文文献全文版式还原与全文输入XML规范。通过数字图书馆中文信息处理标准规范的制 定与实施,指导数字图书馆数字资源制作、存储、管理、传输和服务完整过程的建设。 2汉字属性字典规范 汉字属性字典规范是确保数字图书馆建设的重要标准规范之一。针对数字图书馆文献类型 复杂,使用汉字字符数量大等特点,汉字属性字典规范要求处理的汉字范围为GB18030 —2005 (UNICODES. K IS010646-2003)所包括的全部汉字。汉字属性字典规范的基本内容是汉字 字型标准化、汉字标准发音、字型特征(包括汉字总笔画数量、汉字起笔至末笔笔形值、部首 笔画数量、部首序号、部首外起笔至末笔笔形值、异体字数量、异体字字型等)、各种编码(包 括四角号码、输入编码、其他汉字字符集编码等)以及构词和使用频度等。 汉字属性字典规范应解决①代码转换;②为检索提供规范;③汉字排序;④字音转换; ⑤为文字研究提供汉字的基本属性;⑥提供汉字电子工具等应用问题。 汉字属性字典规范是建立汉字属性系统的基础,是汉字信息处理系统的一个重要组成部 分,可以使计算机处理中文信息的功能更为齐全,提高效率,促进标准化。对汉字属性字典规 范的研究和利用是中文信息处理技术不断深入发展以及数字图书馆深入应用的必然结果。因 此,对汉字属性字典规范的研究与应用具有很重要的意义。 2. 1汉字属性字典规范与其它规范的关系 汉字属性字典规范是中文信息处理的基础;也是古籍用字规范、生僻字和避讳字处理规范、 计算机中文信息处理规范的基础。古籍用字规范、生僻字和避讳字处理规范、计算机中文信息 处理规范是汉字属性字典规范的具体应用。 2. 2汉字属性字典研究现状 在汉字属性研究方面,自80年代中期,我国相继研制出了一些具有应用价值的汉字属性 字典、汉字属性库和汉字属性系统。基于GB13000. 1《信息技术通用多八位编码字符集》即 (ISO/IEC10646. 1-1993)、UNICODE 1. 0的汉字属性标准研究已经完成,解决的汉字数量只是 基本集20902个汉字。但是,基于UNICODES. 1 (ISO/IEC10646: 2003)的汉字属性标准研究, 当前还是空白,除了已经解决的汉字基本集20902个汉字之外,还要解决的汉字数量是扩充A 集6582个汉字、扩充B集42711个汉字。要加速该方面的基础研究,满足数字图书馆资源建 设以及实际应用的需求。 为了适应未来数字图书馆的发展和应用,已有的汉字属性研究还需要进一步拓展和深入。 首先,需要将汉字属性研究的汉字数量从20902字扩大到70195字;需要对汉字属性研究的内 容根据应用的需求不断扩充;需要对汉字的有些属性,根据IS0/IEC10646进行相应的调整、 补充;需要加强对属性数据的维护与更新。 国家图书馆汉字属性字典规范要求处理的汉字范围为是GB18030-2005 (UNICODES. K IS010646-2003)所包括的全部汉字(即7万多字),要求满足数字图书馆资源建设以及实际 应用的需求。汉字属性字典规范是中文信息处理的基础,为中文信息处理提供基础数据,为中 文信息处理应用提供支撑。目前,国内外对汉字属性字典研究在7万多字范围的还是空白,因 此,在处理难度上可想而知。 2. 3代码转换 汉字编码字符集是汉字的存储和传输码,一般又称为汉字内码,也叫做汉字的机内码。汉 字编码字符集是计算机可以识别的编码,适用于汉字处理、汉字通信等系统之间的信息交换 ⑵。 汉字输入编码是输入汉字时使用的编码,一般又称为汉字外码,也叫做汉字的机外码。汉 字输入编码跟特定输入法相对应,通过汉字外码转换成汉字内码输入到计算机中。 汉字属性字典规范提供我国已经颁布的《信息交换用汉字编码字符集》中的字符与其他国 家和地区的汉字信息交换码的对照关系,实现我国与不同国家、地区之间的机读数据的相互转 换;汉字属性字典规范提供汉字输入编码与汉字编码字符集的对照关系,解决超大字符集的汉 字输入问题。 2. 3. 1国内外汉字编码字符集⑵ (1)GB 2312-80《信息交换用汉字编码字符集一基本集》 中国于1980年3月颁布了第一个汉字编码字符集标准,即GB 2312-80《信息交换用汉字 编码字符集一基本集》。该标准符合ISO 2022编码体系结构。:1981年5月1日开始正式实施, 它奠定了中国中文信息处理技术的发展基础。 (2)编码字符集的繁体字和简体字对应编码 1984年“全国计算机与信息处理标准化技术委员会”提出编码字符集的繁体字和简体字 对应编码的原则,并做出了制定六个信息交换用汉字编码字符集的计划。这六个集分别命名为 基本集(GB2312-80)、第一辅助集(辅一,GB 12345-90)、第二辅助集(辅二,GB 7589-87)、 第三辅助集(辅三,GB13131-1991)、第四辅助集(辅四,GB 759077)、第五辅助集(辅五, GB13132-1991)。其中,基本集、辅二集、辅四集是简体字集,辅一集、辅三集、辅五集分别 是基本集、辅二集、辅四集的繁体字映射集,且简/繁字在两个字符集中同码(个别简/繁关系为 一对多的汉字除外)。这六个集均采用双七位编码方式,但为了避开ASCII表中的控制码,每个 七位只选取了94个编码位置。所以每张代码表分94个区和94个位。其中前15区作为拼音文 字及符号区或保留未用,16区到94区为汉字区。 (3)GB13000《信息技术通用多八位编码字符集》 1990年中国颁布了GB13000《信息技术通用多八位编