信息时代是汉字规范更为迫切的时代
我国现代汉字规范工作酝酿于20世纪初期,新中国成立后,在一些领导人亲自的倡导下,这项事业由学术层面转为国家行为,20世纪50年代以来的汉字规范政策,重要的是由国务院直接发布的,一般的或补充性质的,也是在国务院批转的情况下,由文化、教育、出版或语言文字主管部门单独或联合发布的。这些文件的发布和半个世纪的贯彻实践,为我国人民的语言文字生活注入了新的内容,形成了全国人民尤其是语言文字工作者牢不可破的规范意识和遵循规范的用字习惯,减少了各个领域使用汉字的难度,对文化、教育、出版和科技的发展,起到了无形地重要推动作用。试想一下,在幅员辽阔、人口众多的中国,政治经济如此统一的情况下,如果没有通用层面的汉字规范,仅仅是国家政令和基础教育这两项,书写不一的汉字将要带给人们多少麻烦,就可以知道“规范”二字具有多大的分量了!
1979年以来,国家改革开放,国情发生了巨大变化,中国正在实施的创新型国家的伟大战略中,文化教育与科技的进步成为实现这一目标的重要支撑。接着,在20-21世纪之交,信息革命席卷全球,信息时代悄然而至。20-21世纪之交,世界经历了一场革命性的变化,在全球展开的信息和信息技术革命导致了信息社会在全球的实现。
信息革命的主要特点不仅是在生产活动中引入了信息处理技术,从而使生产自动化达到一个新的水平;更重要的是,电讯与计算机系统合而为一,可以在几秒钟内将信息传递到全世界的任何地方,信息和信息工具成为一切活动的积极参与者与原动力,甚至参与了人类的认知活动和发明活动。知识——一种精神活动正在以系统的方式被应用于变革物质资源,改变生产过程,成为一种生产力。这种革命通过改变社会的通讯和传播结构而催生出一个新时代、新社会。就在这一系列的巨大变革中,汉字成功地进入计算机,成为在网络上直接传播汉语信息的重要载体。一个世纪以来的汉字行废之争圆满地画了一个句号,汉字——一种六千余年不间断地发展至今的最典型的表意文字,今后还会在高科技的支持下长存,不但要为今日之中国走向世界发挥巨大的作用,而且要为弘扬中华民族悠久的历史文化遗产写出新的篇章。
信息时代发展政治、经济、文化的重要条件,是及时和准确地传播和获得必要的信息。信息在网络上传播,达到了前所未有的高速度、远距离和高度的社会化。在这种情况下,汉字规范化的必要性更为凸显——只有汉字这种传播载体的标准化,才能保证信息传播的速度和信度。但是,上世纪50年代以来陆续制定的多个汉字规范的文件,指导思想不完全相同,研制手段互有差别,使这些规范缺乏内部的一致性,再加上由于政治、经济、文化、教育的发展,社会用字情况有不小变化,过去的规范对当下语言生活的适应性也有一些不足。因此,需要站在现代的历史高度、利用现代技术手段来考察当代用字的实际,对已有的规范进行梳理,消除其间相互抵牾之处,弥补因各种原因造成的疏漏,将一些隐性的规范显性化,增加现代语言生活的新内容,从而使已有的汉字规范得到整合、优化,为构建和谐的语言生活打下基础。
新的汉字规范具有鲜明的时代特点
这次《通用规范汉字表》的研制,是在50-80年代已有规范的基础上制定的,它记录现代汉语的通用汉字的规范字集。在字量、字级方面有两个重要的变化:《通用规范汉字表》一、二级字表是一般通用领域的汉字,两级相加6500字,比过去7000通用字少了500字。经过多个语料库的测查,6500字对现代汉语语料的覆盖率,与过去比不但没有降低,在新闻、公文、科普等领域还略有提高。也就是说,在同样记录现代汉语文本的前提下,6500字与以前的7000字效应是相同的。这一方面说明,30年后的今天,选字所用的测查工具和统计方法更为科学,入选一般通用字的准确度更高了;另一方面,经过半个世纪的汉字规范,社会对汉字使用的自流现象得到了克服,用字更为集中。同时,《通用规范汉字表》设置了三级字表,收字1605个,总数为8105个。为什么有这样大量的增加呢?在信息时代,汉字进入计算机,承担了在网络上传播信息的载体之后,“通用”的概念需要全面理解。通用包括两个侧面:一个是书写的侧面,也就是信息发出的层面;另一个是阅读的侧面,也就是信息接收的层面。能够进入平衡语料库的汉字,兼有这两个方面的通行度;但是也有一些汉字,书写的频度并不高而阅读的几率却很高。主要包括以下四个领域的用字:
科技用字。由于科学技术的发展和教育水平的提高,很多科学技术的用语快速进入人民的日常生活。仅仅拿记录化学元素符号的汉字来说,它们很多要用在药品名上,当药方不再手写而用计算机输录时,这些字就不断地出现在病人的病例上,成为病人和病人家属必读的字。农药、化肥、室内装修材料也有不少是要用它们的学名来宣传、普及的。至于化妆品、清洁剂的使用,饮食健康的讲解,气象的采集和预报等等,一旦进入科学普及领域和基础教育的教科书,都会被民众普遍关注。
地名用字。地名用字的使用范围在信息不发达的社会往往不是全国所有地区通行的,仅仅属于当地居民的常用字;而在信息社会,户籍、邮政、信贷、金融等行业的信息贮存和检索已经数字化,任何一个地名,起码是乡以上的地名,都会随着信息向全国甚至全世界的辐射而被各处使用。由于民族和方言发音的分歧,经常会产生一些任意造的转语字(即,当地人根据方音自造的形声字)造成的用字混乱,会给有关行业特别是当地民众带来信息的错乱和阻塞,有些后果不堪设想。
姓氏人名用字。中国是一个多民族的国家,姓氏不但记录着民族和血缘关系,还成为每个公民的称谓符号。这些姓氏数量有限,但是必须正确使用,才能保证信息的信度。至于名字所用的汉字,现在已经相当混乱,有些名字的用字甚至在已经扩充到7万余字的国际编码中都难以找到,致使第二代身份证的制作由于姓名用字不全产生很大的困难。新的规范汉字表无法改变过去的那种姓名用字混乱的事实;而且由于通用度的限制,也不能收入全部的姓氏、人名用字,但是可以学习一些先行国家的经验,选择较为普遍的姓氏用字和适合起名字的人名用字进行规范,对个人姓名在社会上有效的流通起到一定的作用。
基础教育文言用字。规范汉字主要是书写现代汉语文本的,但是,历史和现代不是绝缘的,现代文本中会引用文言作品,中小学语文教材中也都会收一部分优秀的文言作品。前者可以在一般的平衡语料库中收集到,而为了保证教材印刷的规范,需要在语文教材中专门收集文言文的用字。
以上四个专门领域的用字对信息传播影响很大,几乎涉及到千家万户,但是,这些汉字在平衡语料库里按照一般用字的覆盖率是搜集不到的。为满足计算机普遍运用、科技发展和社会交际的需要,《通用规范汉字表》需要在特殊领域准确撷取,设置三级字表,补充这四个专门领域的用字。
《通用规范汉字表》既遵循科学性又体现社会性
《通用规范汉字表》从立项到公开发布经历了十二个年头,所以需要这么长的时间,是为了尽量保持它的科学性,体现它的社会性。科学性指汉字本身存在和发展的客观规律,但汉字是人文符号,不是字理符号,在应用层面,人文因素要起到很大的作用,客观规律和应用需求之间,有时会存在很深的矛盾,二者之间要慎重协调,择优而行。
这次制定新的规范,要调整过去不同时期所做的规范中处理不一致的地方,具体说,就是要在汉字科学的指导下,符合事实地处理好简繁字问题、正异字问题,以及新收字与原有字的关系问题。为了科学地确定汉字的通用度,统计每个汉字的覆盖率,需要借助语料库、汉字属性库等汉字信息处理的基础设施。这些都需要前期的研究成果作为支撑。而且,汉字是全社会每天都在使用着的书写符号和信息载体,在社会发展极为迅速、信息传播日日更新的情况下,许多带有动态的属性,必须观察发展过程才能确立的规律和特点,需要在一个较长的时间里,对逐年甚至逐月的汉字字频进行监测,才能做出胸有成竹的判断。21世纪汉字规范的研制,不能就事论事,也不能急功近利,要具备对汉字的理性认识。
但是,即使统计数据已经非常准确,也只是就全社会的平均数而言的。汉字是中国文化的基石,它承负着从基础教育的实施到历史文化传承等不同层次的文化发展任务,普通民众、文化高端人士和语言文字第一线的专业工作者和承担语言文字学科研究的专门家,这些不同文化层次、不同职业的人群,对汉字规范有着不同的要求。这些要求有时候很不一致。在汉字规范研制的过程中,简繁之争出现了,汉字的发展规律与使用习惯的矛盾出现了,基础教育宜稳与社会用字求变的矛盾出现了……汉字的社会性给规范的研制带来了诸多尖锐的问题。特别是,50-80年代的规范施行了半个世纪,已经为全社会特别是基础教育和文化普及层面所熟悉,已经成为一种习惯。在这种情况下,新的规范每一个变动,对使用者都需要重新学习。
而且,汉字存于现代但源于古代,既面向现代、面向世界,又承担着数千年文化典籍的重负,信息时代的汉字规范必须适应现代化的需要,也必须考虑文化的历史传承,有利于继承中华文化的精华。历史与现代、古与今的协调也是必须考虑的。
基于以上原因,这次规范将103个常用字调整到二级字表,556个通用字调整到三级字表。同时有226个已经被群众认可的类推简化字加入字表,删去了原《简化字总表》中的31个字,将原调整的26个异体字确认下来,又将45个异体字调整为规范字。这6项调整大约涉及300字/次,加上新增的字,每一个字都是查检了古今用法,调查了使用情况,一次次增求意见,字字斟酌,仔细推敲,衡量利弊后才定下来的。字表历经十二年、先后修改90余稿,海内外学者4000余人次参加研制、审查和修订,为的是择定相对优化的方案,使新的规范更加适应新形势下不同人群的多种要求,有利于多数群众学习和使用。
便于应用是《通用规范汉字表》制定的重要原则
汉字规范必须走群众路线,符合多数群众的利益,但是,规范字的范围只能是在通用层面上。有些人对规范字的“通用性”理解不够,担心自己所用的字特别是自己的姓名用字不在规范汉字表内会被称为“不规范字”,妨碍将来的使用。《通用规范汉字表》有很强的承袭性,能够覆盖过去的规范。在字量和字级方面,书写现代汉语的文本,在网络上传递必要的信息,适应国内和国际交流的需要,一般是够用了;但是,社会通用层面上的用字,并不能囊括每个人、每个领域、每个时间用字的全部,总是有些字不包括在规范汉字表中的。这里,我们要明确“规范汉字”对应着的两个不同的概念:一个是“不规范的字”。已经有了规范汉字,在通用层面上书写现代汉语文本时,仍然去用对应它的异体字或繁体字,特别是错讹字,就属于不规范字。例如:我们认定“泪”为规范字,“淚”是它的严格异体字,不应当出现在现代汉语文本中。我们规定“险”、“检”、“剑”、“俭”为规范字,一般不要在简化汉字文本里再出现“險”、“檢”、“劍”、“儉”这样的繁体字。这样做,是为了减少冗余的字形,减轻汉字识别和记忆的负担,增加信息传播的信度和速度。另一个是“未规范字”,也就是没有被收入规范汉字表中、也不对应任何一个规范字的字。这些字只要不是错别字,仍然可以使用。特别是,科学的门类越来越多,新的科学术语不断产生,一些专门性较强、与群众生活没有直接关联的科技用字,不可能都收入字表,但在专门领域是可以使用的。只是,这些字对通用的现代汉语语料的覆盖率已经小于1%,一般情况下很少用到了。何况,根据《中华人民共和国通用语言文字法》,“有下列情形的,可以保留或使用繁体字、异体字:(一)文物古迹;(二)姓氏中的异体字;(三)书法、篆刻等艺术作品;(四)题词和招牌的手书字;(五)出版、教学、研究中需要使用的;(六)经国务院有关部门批准的特殊情况。”可以看出,新的汉字规范政策实施的强度和适用的宽松度是有所中和的。
规范汉字表规定了字级、字量和字形,但这是根据普遍社会应用层面来确定的,在教育、教学领域制定应用字表,既要遵循规范汉字表的规定,又不能简单截用其中的一段使用。这是因为,在一些专业领域里,会有一些其他规律在起作用。特别是,在确定基础教育识字教学的分级字表或对外汉语分级字表时,如果简单地采用按照字频来分级的做法,将会造成应用上的诸多问题。教学要遵循循序渐进的原则,由易到难,而社会普遍应用层面的字频,与汉字的难易度和构形相互依存的系统是不一致的。我们可以比较以下三种语料库中不同的字频排列。在下表中,同一个字在不同语料库里的频序比较:
从上表中我们可以看到,表中的9个字,在国家语委平衡语料库和科普与教育综合语料库中的频次,相去未远,都比较靠前,而在适合第一学段儿童文学语料库中的频次,要靠后得多。这是因为,6-8岁儿童的心理词典,与成人用词有较大的差距。事实说明,在制定课程标准时,分级字表不应当也不可能超越规范汉字表的一级(常用)字表,但是,简单按规范汉字表的频次来截取字段的办法是不可行的,正确的办法应当根据教学实际与儿童不同年龄段的心理特点,采用汉字必要的属性作参数,经过认真地科学研究,才能生成适用的应用字表。也就是说,在基础教育确定选字范围时,既要遵循《通用规范汉字表》的常用字表,又要在此范围内,根据应用的特点慎重选字和排序。