第一章 语言服务资源
第一节 基于文字的语言服务
一、 文字规范和文字输入
(一) 文字规范的服务空间
我国当代文字的语言服务发展形成有一个过程。基于《第一批异体字整理表》(1955)和《简化字总表》(1964),我国颁布了一系列与汉字相关的规范标准,如:《汉字统一部首表(草案)》(1983)、《现代汉语通用字表》(1988)、《现代汉语通用字笔顺规范》(1997)、《第一批异形词整理表》(2002)等。正如李宇明(2001)所说:“语言文字的规范化,首先有赖于一系列语言文字及其在方方面面运用的规范和标准。这些规范和标准的制定与推行,是信息化时代语言文字工作的中心任务。”所谓“规范和标准的制定与推行”,实际上也是利用语言手段为社会提供的一种服务。这种服务对于国家现代化信息化的建设尤其重要,我们当下缺少对这方面加以规范引导的实施细则。虽然《中华人民共和国国家通用语言文字法》规定“因公共服务需要,招牌、广告、告示、标志牌等使用外国文字并同时使用中文的,应当使用规范汉字”,但在具体使用细则上仍然有加以细化的需要。当然,我国一些相关地方性法规出台了一些实施细则,例如有“公共服务行业的名称牌、标志牌、指示牌、公文、印章、执照、票据、报表、说明书、电子屏幕、商品名称、宣传材料等应当使用规范汉字。确需使用外国文字的,应当在显著位置用规范汉字注释”,“不得单独使用外国语言文字,如因特殊需要使用外国语言文字的,应当采用以国家通用语言文字为主、外国语言文字为辅的形式”等,但整体情况看来,形势仍然不容乐观。
(二) 常用汉字与通用汉字的选择与规范推广
常用汉字就是经常要用到的字,这类字的使用频度很高。1988年1月26日,国家语言文字工作委员会和国家教育委员会联合发布《现代汉语常用字表》,共收常用字3500字,这些是中小学识字教学及对外汉字教学中的教学用字。《现代汉语常用字表》的研制与发布,对汉字的规范与发展、汉字的教学与国际推广、国家的信息化建设和教育科技发展,都产生了一定的影响。
通用汉字就是书写现代汉语要用到的字,是出版印刷、辞书编纂、信息处理等的用字。1988年3月25日,国家语言文字工作委员会和中华人民共和国新闻出版署联合发布《现代汉语通用字表》,共收7000字,其中包括《现代汉语常用字表》的3500字。《现代汉语通用字表》是国家公布的规范字表,它全面体现了新中国成立以来汉字整理和简化的成果,规定了每个汉字的规范字形,包括笔画数、笔顺和组合结构。
2013年6月5日国务院公布的《通用规范汉字表》收字8105个,该表是在整合《第一批异体字整理表》(1955)、《简化字总表》(1986)、《现代汉语常用字表》(1988)、《现代汉语通用字表》(1988)的基础上制定的,根据现代用字状况对相关内容进行修补和完善,根据字的使用度进行定量、收字和分级。通用程度分为三级,一级字表收字3500个,二级字表收字3000个,主要满足现代汉语文本印刷出版、辞书编纂和信息处理等方面的一般用字需要。三级字表收字1605个,是姓氏人名、地名、科学技术术语和中小学语文教材文言文用字中未进入一、二级字表的较通用的字,主要满足信息化时代与大众生活密切相关的专门领域的用字需要。一个字是否能进入一、二级字表,决定于其使用频率的高低,而这个使用频率是通过9个信息庞大的“语料库”的数据进行的统计,其中最重要的两个语料库是收字量为9100万的“国家语委现代汉语平衡语料库”和收字量为3.5亿的“北京语言大学现代新闻媒体动态流通语料库”。《通用规范汉字表》是贯彻《中华人民共和国国家通用语言文字法》,适应新形势下社会各领域汉字应用需要的重要汉字规范。制定和实施《通用规范汉字表》,对提升国家通用语言文字的规范化、标准化、信息化水平,促进国家经济社会和文化教育事业发展具有重要意义。《通用规范汉字表》公布后,社会一般应用领域的汉字使用应以《通用规范汉字表》为准,原有相关字表停止使用注4。
汉字的总量很多,但人们经常使用的汉字并不多,大约有三千多个。据统计,孙中山《三民主义》只用了2134字不同的汉字,《毛泽东选集》用2981字,老舍《骆驼祥子》用2413字,曹禺《雷雨》《日出》和《北京人》共用2808字,赵树理《三里湾》用2069字(苏培成2001),也就是说现代文艺作品用的不同汉字一般在2000字至3000字之间。汉字用字的实际情况说明,汉字学习必须以掌握出现率高的常用字为主,它们是记录现代汉语最基础的字,也是在社会交往中最常用的字。人们在学习汉字时,可以有意识地将学习重点放在掌握常用字上,从而使汉字学习得到事半功倍的效果。
(三) 汉字字符交换集的功用
《信息交换用汉字编码字符集·基本集》(GB2312—1980)是由中华人民共和国国家标准总局1980年发布,1981年5月1日开始实施的一套国家标准,通行于中国大陆,新加坡等地也采用此编码。它是计算机可以识别的编码,适用于汉字处理、汉字通信等系统之间的信息交换。GB2312标准共收录6763个汉字,其中一级汉字3755个,二级汉字3008个。一级字库的字,使用频率合计达99.7%,即在现代汉语材料中的每一万个汉字中,这些字就会出现9970次以上。GB2312标准还收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。GB2312的出现,基本满足了汉字的计算机处理需要,它所收录的汉字已经覆盖中国大陆99.75%的使用频率。对于人名、古汉语等方面出现的罕用字,GB2312不能处理,这就使得GBK及GB18030汉字字符集出现了。
1995年又颁布了《汉字编码扩展规范》(GBK)。GBK与GB2312—1980国家标准所对应的内码标准兼容,同时在字汇一级支持ISO/IEC10646—1和GB13000—1的全部中、日、韩(CJK)汉字,共计20902字。信息交换用汉字编码字符集和汉字输入编码之间的关系是:根据不同的汉字输入方法,通过必要的设备向计算机输入汉字的编码,计算机接收之后,先转换成信息交换用汉字编码字符,这时计算机就可以识别并进行处理;汉字输出则是先把机内码转成汉字编码,再发送到输出设备。
BIG5字符集是台湾繁体字集,共收录汉字13053个。GBK字符集是简繁字集,包括GB字符集、BIG5字符集和一些符号,共计21003个字符。GB18030是国家制定的一个强制性大字符集标准,兼容GBK和GB2312,兼容的含义是不仅字符兼容,而且相同字符的编码也相同。GB18030收录了所有Unicode 3.1中的字符,包括中国少数民族字符、GBK不支持的韩文字符等,甚至可以说世界大多数民族的文字符号都被收录在内。
(四) 汉字输入法的设计与推广
汉字输入法可以分为键盘输入法、光电扫描输入法、手写输入法和语音输入法。
1. 键盘输入法
(1) 音码输入法以拼音输入法、智能ABC、中文之星拼音、微软拼音、拼音之星、紫光拼音、拼音加加、智能狂拼、谷歌拼音等为代表。
(2) 形码输入法括王码五笔、陈桥五笔、搜狗五笔、QQ五笔、万能五笔、极点五笔等。
(3) 音形码输入法有自然码和拼音之星谭码。
(4) 序号输入法有区位码。
1980年,我国颁布了GB2312—80《信息交换用汉字编码字符集·基本集》,这是第一个汉字编码的国家标准,使每一个汉字有一个全国统一的代码,这个字符集是我国中文信息处理技术的发展基础,也是目前国内所有汉字系统的统一标准。
2. 光电扫描输入法
光电扫描输入是利用计算机的外部设备——光电扫描仪,首先将印刷体的文本扫描成图像,再通过专用的光学字符识别(OCR,Optical Character Recognition)系统进行文字的识别,将汉字的图像转成文本形式,最后用“文件发送”或“导出”输出到其他文档编辑软件中。2006年,汉王随身抄资料笔上市,它是以OCR技术为核心,集合了扫描、识别、翻译、发声、屏幕识别等功能的新一代智能资料笔,只要遇到需要的资料,随时随地都能摘抄下来并保存为Word文档,可随时查看,也可导入电脑,编辑修改,使用方便。汉王随身抄资料笔的扫描速度可达每秒8个汉字或10个字母,最大分辨率为400dpi。
3. 手写输入法
手写输入法是用专门的笔、手指或鼠标在特定的区域内书写文字,然后通过各种方法将笔走过的轨迹记录下来,然后识别为文字。最早的手写输入法是为学习五笔输入法或拼音输入法较困难的人群设计的,对于不喜欢使用键盘或者不习惯使用中文输入法的人来说是非常有用的,因为它不需要学习输入法。这种用于电脑的手写笔一般都由两部分组成,一部分是与电脑相连的写字板,另一部分是在写字板上写字的笔。手写笔还可以用于精确制图,例如可用于电路设计、CAD设计、图形设计、自由绘画以及文本和数据的输入等。手写键盘也应运而生。
近年来,随着掌上终端包括智能手机、PDA(Personal Digital Assistant)的使用,触摸式手写输入也应用非常广泛。这种输入法是用专门的笔或手指直接在屏幕上书写。常用的鼠标手写输入软件有逍遥笔和QQ云手写,这种输入法只需要在电脑显示器上的特定区域,用鼠标写出所需的字即可。
4. 语音输入法
语音输入法就是通过麦克风输入中文的方法,如IBM ViaVoice、讯飞语音输入法、谷歌语音输入法、QQ云语音面板等。在ViaVoice中,有一个术语叫作“听写文本”,是用来进行语音输入的命令。它的工作原理是:当启动ViaVoice语音中心时,屏幕上方就会出现“ViaVoice语音中心”这个菜单,旁边还有一个麦克风按钮。单击麦克风按钮,打开它并准备口述文档。在口述之前,需要确认您的用户名出现在语音中心上。然后,就可以开始文档的口述输入了。说“听写到Word”,然后开始口述文档,在口述的过程中,最好读出文档中的标点符号和格式命令,比如“句号”“逗号”“另起一段”等。
语音输入法除了适合于电脑初学者及年龄较大不熟悉拼音输入的老年人外,更深远的影响是利用语音识别及盲文识别系统,使视力障碍者能利用计算机进行学习和工作,使科技发展更好地服务于视障者。
二、 字体与字形设计
(一) 规范汉字的资源利用
经过过去数十年的努力,汉字规范的各项标准已经逐步建立起来,并且因应信息化时代的要求,继续不断完善。已有的文字规范标准已经覆盖了教育和文化普及的基本用字需要,出版印刷、辞书编纂和信息处理等的一般用字需要以及信息化时代与大众生活密切相关的专门领域的用字需要。规范汉字的资源可发挥充分的效用。
1. 汉字识认教学
汉字属于表意文字体系,虽然不少字形经过历史演变和简化,丧失了象形表意特点,成为记号,但总体而言,大部分汉字尤其是合体字仍保留着较强的构形理据。充分利用汉字的组合特点及其音、义表现力,通过义旁系联、音符系联等手段,实现相对集中的汉字教学,能有效提高汉字识认的效率。就现行规范汉字而言,尤其应充分认识汉字简化的方法和规律,总结简化字的新的构形理据。相对独立的汉字教学在汉语教学尤其是对外汉语教学中已越来越受到重视,有关遵循汉字构形理据开展汉字教学的研究探索正不断深入。
2. 汉字书写与书法
汉字是由笔画和部件构成的平面方块形符号,这决定了汉字书写的独特性,须依据相关的笔画、笔顺、字形等规范标准。正确、美观的汉字书写不仅有助于提高汉字识认的效率,也能提高书写者审美、思维能力,是美育教育的重要组成部分。能写一手工整、秀丽、富有个性的字,不仅悦己,也能悦人,给他人留下良好印象。有人专门从事代客设计签名,即见其一斑。汉字书写教育和培训在当下仍有很大的市场。
一般而言,文字书写属个人行为,但在某些领域,如教师板书、医生处方等,涉及接受者的识认,关乎信息传递准确与否,规范书写就显得十分必要。医生处方形似“天书”,曾广受诟病。与普通话水平测试一样,汉字应用水平测试应该在相关领域推广。汉字书写偏误的调查分析及常见被错写字的统计等工作有必要推进,而且应把有关研究推向教学、应用层面,提高一般民众的正字意识和正字水平。
传统的书法研习和创作,以繁体字为主,这其中有历史传承的原因,也有观念转变的问题。实际上,不少简化字,本身就是历史传承字,简体与繁体之间并无必然的鸿沟,应提倡书法家多创作以简化字书写的优秀书法作品,作为学习者的楷模。
3. 汉字笔画排序
长期以来,国际上的名称排序,是根据英文名称的首字母按照26字母的先后次序排列的。在我国,音序和笔画顺序并存。汉字同音字多,同音字的排列先后最终仍然须依照笔画定序。北京奥运会上,开创了在国际大型活动上根据汉字笔画顺序确定国家或人员排名先后的先河,备受瞩目。笔画排序的应用,要求有相应的程序便于操作,更要求相应的程序严格遵循国家的规范标准。
4. 外文、少数民族语言音译的汉字选择
外国专有名词和科技术语的翻译有国家审核程序,而大量的外国商业机构名称或商标名的汉语音译,则并无严格的标准。汉语同音字多,外文音译时如何选择语音相近又能达到较佳表意效果的汉字对译,迎合受众的心理,对于商业宣传和品牌推广具有十分重要的意义。
少数民族人名的汉字转写,常会出现一个人名转写成不同的汉字名,或转写所用的汉字字义不雅等现象,有必要建立一定的规范。目前,新疆等地已经制定了相关规范,值得肯定。
5. 汉字与中华文化的国际传播
汉字作为载体,记载了丰富多彩的中华文化信息,汉字的独特造型,也成为世人了解中国的重要窗口,规范使用汉字,对于中华文化的国际传播,意义重大。
(二) 繁体字的资源利用
广义的繁体字是指除《通用规范汉字表》等国家规范字表中新造字和类推简化字之外的所有历史传承的汉字,自然也包括《通用规范汉字表》中的部分沿用古字的简化字,甚至可以包括甲骨文、金文等古文字字体。狭义的繁体字是指与简化字对应的繁体字。狭义繁体字在现行汉字规范中属于不规范字,只允许在一定范围内使用。繁体字系统本身也有繁体、简体、俗体等的区别,情况复杂。
浩如烟海的历史典籍都是用繁体字书写记录的,目前我国台湾、港澳和部分海外华人地区也仍使用繁体字,因此在推广使用简化字的同时,繁体字必然仍在一定范围内使用。从语言服务的角度看,繁体字也是一个很重要的语言资源,应该加以合理应用。
1. 繁体字的整理和规范
如前所述,繁体字系统是一个庞杂的系统。单就隶楷阶段而言,同一个字可能存在不同的异体,例如对应简化字“为”,通常有“為”“爲”二体,对应规范字“春”,存在“萅”“旾”等异体。这些异体的情况十分复杂,如“为”是“為”的草书楷化,但《简化字总表》则只规定“为”是“爲”的简化字,对“為”未有说明。在繁体字的出版物当中,有时候用“爲”,有时候用“為”,有时候则两体同时使用。又如“春”是隶变之后的标准字体,“萅”“旾”则是古文字的隶古定,在清代的古籍或书法作品中较多出现,《第一批异体字整理表》把“旾”作为“春”的异体废除,对“萅”未做说明。
大陆与台、港、澳地区的相关人士都已逐步意识到这方面可能存在的应用价值,并有所推动,在一定程度上对繁体字的常用字、通用字的一字多体情况进行了整理,对各种异体的来源和适用范围加以标注等。从长远发展来看,相关部门应根据不同情况制定强制或建议性的繁体字通用字表,规定一般繁体字出版物的选用字形,以便民众合理使用。
《国家通用语言文字法》规定,文物古迹、姓氏中的异体字,书法、篆刻等艺术作品,题词和招牌的手写字,出版、教学、研究中需要使用的,经国务院有关部门批准的特殊情况等,可以保留或使用繁体字、异体字。对于已有的历史文字材料,保留原貌无可厚非,但对于新造的材料,例如新题词、新写招牌等,应当尽量避免使用繁体字。除了特定出版、教学、研究需要,应当尽量避免使用繁体字和异体字,更加不能繁简夹杂。因此,制定繁体字使用规范细则,十分必要。最终应达到的目标是:法律规定不应使用的场合不使用繁体字,法律规定可以使用的场合正确使用繁体字。
2. 繁体字与简化字的转换设计
经过数十年简化字推行,目前除了特定人群,一般人对繁体字的认识和了解十分有限,既然繁体字仍有存在和使用的空间,就有必要为不熟悉繁体字的人群提供便利的繁简转换程序。这里繁简转换所指的“简”,是指简化字,所谓的“繁”,是指与简化字对应的繁体字或异体字。换言之,这里的繁简转换,特指《通用规范汉字表》等规范字表所明确列出的简化字与被简化字之间,选用字和被废止的繁体、异体之间的转换。
过往微软Word文档已经带有“中文简繁转换”程序,转换十分快捷,但这一程序仅设置简单的繁体、简体转换,未能顾及简化字与繁体字、异体字一对多的情况。比如,简化字“丑”,对应的是繁体字丑陋的“醜”和干支中的“丑”,但在简转繁过程中,“丑”一般只转成“醜”,只有在“子丑寅卯”四字连写同时转换时,“丑”才可能保留“丑”的字形。当然,也有繁体字错误转换的,例如台湾地区一些针对大陆游客的宣传单把“食”字错误简化为“饣”,致误原因无疑是不了解类推简化的限度。
2014年,由教育部、国家语委启动的《汉字简繁文本智能转换系统》正式发布。该系统能够进行“面向台湾”和“面向古籍”两种字体简繁转换,克服了同类软件在“一简对多繁”转换情况下的不足。同时,系统可进行字、词、专业术语、标点符号等多种转换,也可对网站全部页面进行转换,满足用户不同使用需求。经中国中文信息学会评测,该转换系统简体到繁体的转换准确率达到99.99%注5。
繁简转换程序不断优化,海峡两岸和香港、澳门相关用字标准逐步互通,是必然的趋势。
3. 繁体字与古文字的查阅平台
因为繁体字不为一般人所熟悉,所以建立相关的查阅平台,帮助人们了解和正确使用非常有必要。在这一信息平台上,关于汉字研究的权威性成果应该整合发布,动态更新,成为普通人可以共享的信息,将学术研究与应用普及连成一线。
汉典网(http://www.zdic.net)有字典功能,一般的汉字都能查找到相应的解释,并且罗列对应的古文字字形,但古文字字形最多只提供甲骨文、金文、小篆、楷书(简化字)四体,代表性字形不全,字形又往往不尽准确,且不注字形出处。目前包括《汉语大字典》在内的大部分汉字工具书,对字形处理都只停留在按历史先后简单排列的层面上,对汉字字形的历史流变以及形义分合缺乏梳理。比较理想的状态应该是源流释例,如:
这种编排方式让人一目了然,若继而配以必要的文字说明,尤其是往往被忽视的繁体字简化的方式和理据的说明,则会更加完备。(曾宪通、林志强2011)李学勤(2013)主编的《字源》选取6000余个常用和较常用汉字进行历时的渊源变化考察,有助于促进我们对汉字流变的认识。我们除了需要类似的专书,更期待以此为基础的动态网络资源的推出,以促进汉字的传播和传统文化的弘扬。
(三) 汉字字体的设计开发
过去的字体设计开发,主要着眼于印刷出版的需要,以实用为主。随着社会经济的发展,字体开发更追求美观、个性化,以满足不同层面的使用需要。陈慧(2010)指出,目前日本有近3000款汉字字库,而我国内地目前只有400多款,明显不足,且存在字体质量差、技术落后等问题。除了从工艺美术角度出发设计更多的汉字造型字体系统之外,还可以有以下的个性化字体开发:
1. 书法字体系统开发
现有的汉字字体中,已经涉及这一方面的内容,如魏体(参照魏晋碑刻文字)、瘦金体(参照宋徽宗书体)、启功体(参照现代书法家启功的书体)、舒同体(参照现代书法家舒同的书体)等。中国的书法文化源远流长,历代的优秀书法作品甚多,这一方面大有可为。
2. 古版图书字体系统开发
我国现存大量的古代典籍,其中多有印刷精良者,文字风格清雅秀丽、古朴淳美。在这些古籍文本的基础上对字形进行修复、修饰甚至创新,既传承文化,又开辟新天地,能够充分突显汉字之美。目前已经出现了《康熙字典》体、浙江民间书刻体等字体系统,但要成气候,尚需时日。(颜亮、曾晶2012)
3. 历史名人字体系统开发
毛泽东是政治家,但其行草字体独具一格,造诣深厚,备受推崇。毛泽东生前为很多学校、机构、报刊题词,身后仍有不少以集毛体字为名牌的现象,仿写毛体的书家也为数不少。以毛泽东的书法造诣和历史影响,开发毛体字自然顺理成章。类似的历史名人如孙中山、鲁迅等的字体均不同程度地被集字利用,也有相当的开发价值。各类历史字体,都无可避免地出现没有对应简化字字形的情况。系统的研发既要着眼于集字整理,更要实现规范化改造,遵循该种字体风格特点,归纳新造合乎现行汉字规范的新字形。
4. 古文字字体系统的开发
出于对传统文化的向往,越来越多的人对古文字发生兴趣,无论是学习、书法还是用作装饰,都有便捷使用古文字字体的需求。目前较为流行的古文字字体,有北师大的说文小篆系统、台湾“中研院”的甲骨文和金文系统等,但这些还不足以展现丰富、精彩的古文字资料。小篆字形风格统一,系统开发难度不大;其他古文字材料,都是一个庞杂的文字集合,比如金文,历史和地域跨度大,字体风格不一。目前所见的文字系统,只是把对应后世汉字的字形列出来,并没有整合协调字形风格,也未顾及不同历史阶段的字词关系、用字习惯的差异。作为一种实用的字体,有赖于书法家、文字学家联合技术人员共同设计符合相应古文字构形特点而又风格划一的标准字形。“中华大字符集”一期工程已经整理了《说文》小篆字符,搭建了甲骨文选字平台、《说文》小篆自动分析系统等。(陈敏等2009)
(四) 汉字内部构件的资源利用
1. 新字形的创制
《汉语大字典》收录5.6万多字,《中华字海》收录8万余字,仍远非汉字的全部,2011年7月全面启动的“中华字库”工程有望把迄今所见的所有汉字纳入其中,便于信息化处理,值得期待。
目前一般计算机的输入法,汉字字符数只有2万余字,方正超大字符集收录6万余字,虽然已经足以应付一般的使用需要,但随着文献资料的不断发现和整理,更多的字形会不断出现,任何一个大型字库不可能一劳永逸解决所有问题,便捷的造字方法十分有必要。
隶古定是传统的古文字整理记写方法,自晋代以来一直为研究者所使用,并且行之有效。目前对于字符集没有的字形,古文字隶定只能采取利用现有字符拆解重组的方式拼合,字形的统一协调性自然大打折扣。
1998年发布的《信息处理用GB13000.1字符集汉字部件规范》总结20902个汉字形体,归纳出393组共560个部件。有必要以这些主要部件为基础设计相应的程序,便于灵活搭配新造字形,使之能够在一般程序上显示或以图片形式显现。
2. 各种字体字符集的拓展
无论是一般系统收录的2万余字,还是方正超大字符集收录的6万余字,都是以宋体字为基础字体的。其他的常用字体如魏体、仿宋,字符数量有限,不能实现字体的便捷转换。国家语委制定有《印刷魏体字形规范》《印刷隶体字形规范》等规范,相关的研发除了创新字体之外,还应着力拓展各种字体的字符集的容量,参照《信息处理用GB13000.1字符集汉字部件规范》,归纳每种新字体的部件规范,以便于通过部件组合,不断生成新字。
3. 汉字部件的合理利用
广东民间将“招财进宝”四字的繁体字通过偏旁借用的方式进行拼合(图1-1)。陕西人将其传统面食称为“biɑngbiɑng面”,所谓的“biɑng”本无其字,民间沿用的形体实际上是遵循偏旁组合的规则自创的“文字”(图1-2),可谓妙趣横生。
更为人所熟知的,是人们把两个“喜”字拼合成“囍”,表示双重喜庆,其中的创意值得借鉴。这种偏旁部件借用、拼合现象,古已有之,商周古文字中的“合文”即是其例,如“公子”合文(图1-3),“公”字下半和“子”字上半共用。中华老字号的标识将“字”“号”二字糅为一体,颇得其趣。
汉字部件既能拼合,也可分拆,若使用得当,能醒人耳目。古生僻字“烎”(yín)被网友从故书中翻出,利用字形含“开”“火”二形注6,赋予“霸气、彪悍、勇猛”的新意,成为2009年度“热词”。国际爱护动物基金会一则公益广告将象、虎、熊、人四字的部分笔画去掉,构成若“象无牙,虎无骨,熊无胆”则人而不仁的创意,宣传野生动物保护;某公益广告以3个亮红的交通灯替代“酒”字的“氵”旁,昭示“酒后驾驶危险”。这些皆是利用汉字部件的创意之作。
可见,很多汉字部件源自象形符号,在设计构图上有很大的可利用空间。
三、 汉字字频与汉字字量
(一) 各种频次汉字的开发
1. 字频
字频就是一个字的使用频率,也就是使用次数。在一定数量的文字范围里,哪个字被重复使用的次数最多,那个字的字频就最高。字频统计首先选择了不同年代、不同学科的大量文字资料作为字源,然后,用计算机逐个进行使用次数的统计。
一个字的使用次数与统计材料全部字出现的总次数之比,叫作“频度”。字的频度一般用百分比表示,可以比较直接地看出一个汉字的覆盖面。例如:使用频率最高的“的”字,它的频度是0.39,一看就知道在100个字中,就有3.9个字是“的”字。频率与频度表达的方式不同,但是实质是一致的,所以,常常将字的频度通称为字频。
2. 字频统计与识字教学的关系
字频统计的意义是多方面的。研制计算机信息处理软件,要把汉字的使用频率的分析作为依据。编写供不同对象使用的字典选多少字、哪些字,有了字频统计就变得非常容易。
字频统计对识字教学更有独特的、重要的意义。多年来识字教学存在的许多问题长期得不到彻底解决,其中最重要的是学习多少字、学习哪些字和按照什么顺序学习这些字,这样一些最根本性的问题一直没有得到科学、合理地解决,从而造成了识字教学的高耗低效。可以说,有了字频统计我们就掌握了解决这些问题的法宝。
根据字频的频度统计和累频计算结果,我们有理由把认识字频最高的2500个字作为小学的识字教学内容。这样既搞清楚了小学的数字总量,也明确了应当学习的是哪些字,一并解决了字种和字量两个问题。根据字频统计结果,我们完全可以把认识覆盖95%以上篇幅的字频最高的2500个字作为小学识字教学阶段的识字对象和识字量。只有这样,才能真正、彻底地解决识字制约阅读和写作教学,拖语文学习后腿的问题。只有学生真正认识了字频最高的2500个字,为阅读和写作储备基本够用的字词和初步的语文能力,才能为“及早阅读”“大量阅读”这个提高语文能力的关键措施提供“物质”保证。识字教学的效益也会得到彰显。
识字教学要提高效益,除了应当明确字种和字量外,还必须科学安排学习顺序。字频统计是字种、字量和字序的科学统一。不按字频高低的顺序进行学习,字种必然混乱,字量必然增加,识字教学就永远也摆脱不了“无序”带来的混乱和低效。所以,按字频高低进行识字教学是保证识字教学质量和效益唯一的选择。只有先学高频字后学低频字,才能做到读识同步,音形义兼顾,语文能力全面协调发展。
(二) 汉字字库的建设与利用
汉字输入计算机后,计算机用两字节表示这个汉字的内部码,而不是直接存贮这个汉字的字形,因此,当计算机要输出汉字时,就需要将内部码恢复为它所代表的汉字字形,这就要用到字库。
字库的分类有以下几类:按字符集,分为中文字库(一般是中西混合)、外文字库(纯西文)、图形符号库;按语言,分为简体字库、繁体字库、GBK字库;按编码,分为GB2312、GBK、GB18030等;按品牌,分为微软字库、方正字库、汉仪字库、文鼎字库、汉鼎字库、长城字库、金梅字库等;按风格,分为宋体、仿宋体、楷体、黑体、隶书、魏碑、幼儿体、哥特体等;按名人字体,分为舒体(舒同)、姚体(姚竹天)、启体(启功)、康体(康有为)、兰亭(王羲之)、祥隶(王祥之)、静蕾体(徐静蕾)等。
目前国内从事汉字字库开发的厂商主要有北大方正、汉仪、华文、四通、中易等。其中北大方正是中国最早从事中文字库开发的专业厂商,也是最大的中文字库产品供应商,现拥有各种中、西文以及多民族文种字库数百款,这些年它还在不停地开发新的字体,开发了GB18030超大字库。另外,汉仪也推出其精美的字体字库。各个厂商的GB18030编码超大字库也都相继推出。总的来说字库市场还是非常繁荣的。
1. 方正字库
北大方正是中国最早从事中文字库开发的专业厂商,也是最大的中文字库产品供应商,现拥有各种中、西文以及多民族文种字库数百款。支持GB、GBK、GB18030、BIG5以及JIS、KSC等编码体系,可以提供TrueType, PostScript Type1、Type0、CID等各种通用格式字库。国内有近90%的报社、出版社、印刷厂使用方正字库排印大量的报纸、书籍、杂志、教材、文件、包装等;在海外使用中文的报刊中,这个比例也已经达到80%。由于国内主要视频设备厂商选用方正字库,使CCTV、BTV、凤凰卫视等各大电视机构每天都向千家万户传送使用方正字库制作的新闻、体育和文艺节目。可见,方正字库已成为市场上使用最多的中文字库产品。
方正宋体超大字符集,是迄今为止国内单款字体包含汉字字符数目最多的字体,它目前包含《汉语大字典》的全部5.6万余字,扩展后将至7万余字,较好地解决了目前面临的大部分遇到的生僻汉字问题。但是目前仅有一种字体的现状,还不能满足人们日常使用中对美观、多样的需要。所以,继方正宋体超大字符集后又即将推出方正楷体超大字符集。楷体字朴实端正,笔法舒展有力,流畅自然,结构匀称,适用于书、报、刊和各级教材的中小标题及正文。
在上述基础上还可以进行个性化的字体开发以提供相应的语言文字服务。2007年4月27日,方正电子携手徐静蕾发布了其个人书法计算机字库产品,命名为“方正静蕾简体”,这是我国第一款真正意义上的个人书法计算机字库产品,它标志着“计算机字库”将进入个性化时代。“方正静蕾简体”按照GB2312国家标准,6763个汉字,682个标点符号,94个包括英文字母和数字在内的ASCII字符,书写在有100多个1.2厘米见方格子的A4纸上。字体骨骼清秀、遒劲有力,清冽而又优雅、从容,适用于信函、报告、文章等的书写。
2. 国安字库
1999年,北京国安资讯设备公司开发的汉字字库,收入了有出处的汉字91251个。除包括国家和国际标准的全部字符集汉字外,还涵盖了《说文解字》全部楷定字及《康熙字典》《汉语大字典》《中华字海》的全部收字,并覆盖20世纪80年代台湾教育部门整理的全部汉字。同时,还专门收集了上述字集、字典所不能包括的古今姓氏、地名用字。该字库不仅可供海峡两岸和香港、澳门及国外进行汉字文本印刷、古籍整理、辞书编写、汉字整理和研究使用,而且还为人名名录及证件制作、中国地图地名标注提供了水平很高的字库工具。
3. 古汉字字库
美国人理查德·西尔斯(Richard Sears)花费20年创建了网站Chinese Etymology(汉语词源http://www.chineseetymology.org/)。在该网站上,输入一个字搜索,不仅能查到这个字的繁体、甲骨文、金文、小篆等字形,还提供中国普通话、上海话、广东话、闽南话及日语、韩语的发音。
4. 中华字库
近年来,复旦大学、清华大学、中国科学院、中国社会科学院等高校和研究院所,联合北大方正、汉王科技等技术研发领先的企业,共同开发“中华字库”,预计可编码字符数在50万左右,包括汉字古文字约10万、楷书汉字约30万、各少数民族文字约10万。“中华字库”本是对传统文化典籍进行数字化的存储和传播,为传世文献的数字出版服务,但也可以解决人名、地名中的生僻字等现实应用问题。该字库为开放性的,建成后如果在新发现的文字资料里出现了新的字或字形,在相关的研究领域中出现了能够补充纠正以往研究的新成果,它就会及时加以吸收,使字库得以不断改进、不断完善。
四、 汉字其他的一些特殊服务功能
(一) 文字游戏
依附汉字字形衍生的文字游戏已成为民俗文化的重要组成部分。无论是拆字、字谜还是联边,均充分利用汉字形与义的相关性,进行出乎意料又合乎情理的设计,妙趣横生,既能娱乐大众,又有教育意义。
1. 拆字
汉字是由笔画和部件组合构成,组合的部件自然可以拆解,如人们在介绍姓氏时为了避免音同音近误解,会有“弓长张”“立早章”“古月胡”“口天吴”之说。宋代词人吴文英《唐多令》:“何处合成愁?离人心上秋。”“愁”是从心、秋声的形声字,但所谓“自古逢秋悲寂寥”,“秋”与“愁”很可能有同源关系。以“离人心上秋”解释“愁”,于形于义皆甚相合。鲁迅的杂文集名“且介亭”,所谓“且介”是取“租”“界”二字字形之半以表“半租界”之义。字形分合也巧妙运用于对联中,如有对联“一明分日月,五岳各丘山”,颇得拆字之趣。
当拆解成为一种游戏,就未必再遵循原来的构字理据。如“米寿”(88岁生辰)是将“米”字拆分为八、十、八,“茶寿”(108岁生辰)是将“茶”字拆分为十、十(旧体字形艹旁左右分写),八(人旁拆解)、十、八,88加双十刚好为108。又如俗称生日为“牛一”,即把“生”字上下分解为牛、一两部分。
2. 字谜
暗射事物或文字等供人猜测的隐语,可分为字谜和非字谜,其中字谜即与汉字的形音义直接相关。如谜语“霍霍之声”,谜底为“韶”。《木兰诗》有“磨刀霍霍向猪羊”,“霍霍”是磨刀口时发出的声音,而“韶”可拆解为刀、口、音三部分。又如谜语“上不在上,下不在下,不可在上,止宜在下”,谜底为“一”,此谜利用人的错觉,这里的上、下、不、可、止、宜均只用作字形解,上、止、宜之“一”均在下,下、不、可之“一”均在上。
旧时隐语也常以字形立说。如买卖人中对数字的代称有:旦底(一)、空工(二)、横川(三)、侧目(四)、缺丑(五)、断大(六)、虎底(七)、分头(八)、未丸(九)、田心(十)。
3. 联边
联边就是特意选用若干个偏旁相同的字串联成语造成气势的一种修辞格。如旧时海神庙对联:“浩海汪洋波涛涌、溪河注满,雷霆霹雳霭雲雾、霖雨雩霏。”上联选用11个氵(水)旁的字,下联选用11个雨旁的字,突出了“水”和“雨”,以此表现海神,颇具气势。
4. 神智体
神智体是一种近乎谜语的诗体,传为苏东坡首作,充分利用了汉字的形体来写诗,所谓“以意境作画写字”。相传苏轼《晚眺》诗书作:
(二) 字符寄托
1. 对联
对联来源于对偶,连用一对长度相等、结构相同、语义相关的语句,使表达均匀对称。汉字是方块字,每个音节写在纸上占有的空间也相同,对偶充分利用汉字的这一特色,使之成为汉语修辞格所特有的一种修辞手段。对联是对偶中的一种特殊格式,是写在纸上、布上或刻在竹子上、木头上、柱子上的对偶语句。春联、婚联、挽联、店联、楹联,就是一部大书,各有千秋佳作。古今对联也多有充分利用汉字字形特点的佳作。如:
(1) 拆合字对联
二人土上坐,一月日边明。(将“坐”拆分为“土”和“二人”,“明”拆分为“日”“月”)
冻雨洒窗,东二点,西三点;切瓜分客,横七刀,竖八刀。(上联巧在“冻”是由“东”和“二点”构成,“洒”是由“西”和“三点”组成,下联“七”“刀”,左右横合正是“切”,“八”“刀”上下竖合正是“分”)
(2) 叠字与偏旁对联
水水山山处处明明秀秀,晴晴雨雨时时好好奇奇。
烟锁池塘柳,炮镇海城楼。(上下联皆是用金、木、水、火、土五行做偏旁的字组成)
(3) 同音假借和语音两读对联
海水朝朝朝朝朝朝朝落,浮云长长长长长长长消。(一般认为当读作:海水潮,朝朝潮,朝潮朝落;浮云涨,常常涨,常涨常消)
2. 吉祥字符
吉祥字符中最有名的莫过于“卐”(卍),严格意义上说并非汉字。“卐”是佛教相传的吉祥标志,梵文音“室利靺蹉”(srivat-sa),因佛经翻译而传入中国。据传武则天时,定其读音为“万”,义为“吉祥万德之所集”。伴随着佛教的盛行,“卐”亦成为中国传统的吉祥符号。
民间的其他吉祥字符主要有“福”“寿”“囍”三字,“囍”已见前述,“福”“寿”二字的衍生符号千姿百态,更有所谓的百福图、百寿图,成为喜庆场合必备之图案。既然吉祥字符为大众所喜闻乐见,以吉祥字符为元素所带来的建筑、装饰、服饰、绘画、书法等设计创意可谓琳琅满目。
3. 汉字表情
互联网的兴起和网络传播的发达,虚拟空间中文字和符号的自由运用,也衍生出新的字符寄托。这些字符寄托多与字义无关,仅取其形,故称为汉字表情,其中不乏精彩之作。
囧:本义为窗户明亮,因为字形酷似撇八字眉和撅起嘴角的表情,被赋予惊讶、无奈、沮丧、悲凉或凄惨的意义,成为流行单字,更有各种据此延伸的系列表情符;随之也带动商业开发,频见用于网站、商品、出版物等做标识。
槑:“某”(“梅”的古字)的异体字,所从的“呆”即“某”的讹变。不过“槑”在网络上的蹿红与其来源无关,网民只关注字形上的两个“呆”,“槑”作为表情符被网友使用,其网络语义为很呆很傻很脑残注7。
(三) 装饰艺术
汉字起源于原始记事图画,记事图画向艺术方向发展即成绘画,向实用方向发展则形成了汉字。汉字与装饰艺术历来关系密切。
1. 汉字与书法篆刻
中国传统书画同源,汉字很早就具有了艺术表现的特质,不少商周青铜器上的铭文就有意在形体上着力,以体现其形体之美,与铜器的花纹并为礼器的特征。春秋晚期以降,东南沿海的吴越徐舒等国的金文更有美术化的倾向,其极端便是著名的“鸟虫书”。迄今所见最早的墨迹可追溯到商代陶文上的墨字,战国时代大量的竹简更是毛笔书写的瑰宝,从竹简到缣帛再到后来的纸张,或以此为基础镌刻的碑石、玺印等等,美不胜收。魏晋以降,书法篆刻成为一种独立的艺术门类,绵延至今,影响甚广,为国民语言生活提供了丰富的要素资源。
书法按照文字特点及其含义,以其书体笔法、结构和章法写字,使之成为富有美感的艺术作品。汉字书法为汉族独创的表现艺术,被誉为无言的诗、无行的舞、无图的画、无声的乐。书法修习和欣赏已经成为了文化传承和素质教育的重要组成部分。
2. 汉字与图标徽识
汉字方块平面的特点和形体表意性,可用于设计各种徽识标志,既简洁明了,又形象突出,效果明显。以下略举数例。
(1) 北京奥运会徽及运动项目图标
北京奥运会会徽借鉴传统玺印特点,将“京”字字形写意化,形如灵动跳跃的人形,突出奥林匹克运动的特点。各体育项目的标志吸收小篆粗细划一的曲线特点,使其富有特色。两者使得中国文字元素与现代运动相结合,相得益彰。
(2) 其他徽识标志
北京大学校徽:采用篆书“北”“大”二字,利用构型的左右对称特点,庄重而具感染力。
广东电视台台标:简化字“广”字的艺术化,三个笔画分别为红、绿、蓝三色,代表三原色。
上海世博会会徽:将“世”字化为你、我和他/她手拉着手,象征着人类大家庭。
广东省博物馆馆徽:将“广东”二字隐于“藏”字当中,突出博物馆收藏功能,而字形笔画特点亦与广东省博物馆的外形相匹配。广州大学校徽(图1-7)将GU校名英文缩写糅合进“羊”字之中,以广州的别称“羊城”标示学校的所在。这些利用汉字特点设计的徽识都堪称佳作。
当然,不少汉字形体相近但意义差别甚大,在利用汉字字形做相关设计时,一定要注意形体的区别度,以免造成认知错觉,适得其反。
3. 汉字与装饰设计
装饰、服饰等的设计常常融入民族文化元素。以时装设计为例,其借鉴中国国画、中国结、京剧面谱、青花瓷等“中国风”的现象已很常见,而古文字图案、书法作品、民间吉祥字符等也正成为设计者关注的焦点。
汉字起源于象形表意符号,古汉字的图像表现力可为设计者借鉴,如中国邮政的标志即利用“中”字古文字字形进行创意;而利用现代汉字字形进行的汉字创意设计也正方兴未艾,如借笔融合的“汉字创意”(图1-8)、以字形拼图形的“雄鹰翱翔”(图1-9)等。
利用汉字字形进行的平面设计,不仅借汉字之形,更能融汉字之义,更胜于一般的图画图标,使得相关设计更有内涵。