序二 筚路蓝缕,披荆斩棘
国内第一个汉语中介语语料库是由储诚志、陈小荷主持开发的汉语中介语语料库系统。它主要是单机版的语料库,于1995年通过鉴定,后来由陈小荷教授继续开发。后来,几位研究者相继离开了北京语言大学,语料库的开发和应用留下了巨大的空白。2002年我接受国家汉办的委托开发HSK动态作文语料库,当时我担任北京语言大学汉语水平考试中心的主任,张宝林教授是我的同事,于是我把这一任务委托给张宝林教授具体负责。现在时光已经走到了2022年,回首过去20年我们一起走过的路,可谓百感交集。自从张宝林教授踏入语料库语言学这个领域以来,筚路蓝缕,以启山林,披荆斩棘,砥砺前行,在汉语中介语语料库的建设和研究方面取得了优异的成绩。如今我们都已过了花甲之年,可以坐下来对过去20年的研究做个回顾和总结了,很多经验和教训对未来者将会有所启迪。
中介语是第二语言学习者说出来、写出来的句子或者语篇,这些句子或者语篇与目的语有一定的差距,把它们记录下来整合在一起,做成语料库检索系统,它们就会成为中介语研究和第二语言教学研究的重要资源。汉语中介语语料库的建设与研究,经历了从无到有、从简单到复杂的过程。在过去的20年里,我一直关注语料库语言学和汉语中介语语料库的建设,并参与了HSK动态作文语料库和全球汉语中介语语料库(QQK)的开发和建设工作。从这个意义上来说,我既是汉语中介语语料库的建设者,也是汉语中介语语料库的用户。HSK动态作文语料库上线以来用户数量不断增加,为很多学界同人和研究生的学术研究提供了中介语的数据支持,这是我们引以为自豪的地方。我们开发和建设语料库的初衷是为一线教师和研究者提供服务,因此语料库建成之后,会免费提供给大家使用。张宝林教授在过去的20年里,不忘初心,一直在孜孜不倦地钻研语料库的问题,先后设计了多个语料库:HSK动态作文语料库、HSK动态口语语料库、外国留学生汉语学习过程语料库、首都外国留学生汉语文本语料库、全球汉语中介语语料库、少数民族HSK作文语料库、澳门多语多态平行语料库。可以这样说,在汉语中介语语料库的建设和研究方面,张宝林教授已经成为国内这个领域首屈一指的专家。
语料库的建设与研究是一项系统工程,涉及多方面的工作。
首先是语料库的整体设计,这涉及以下一些问题:要建成一个什么样的语料库?该语料库应该具备哪些功能?这些功能的实现路径是什么?语料库的服务对象是谁?语料库建设所采取的技术路线是什么?语料加工和处理采用什么标准?
第二项工作是语料的采集,这是一项很有难度、有挑战性的工作。我们开始的时候依托汉语水平考试考生的作文语料,省去了语料采集的麻烦,但是汉语水平考试的作文语料内容比较单一,主题受限,而且都是笔语语料,其丰富程度是远远不够的。在全球汉语中介语语料库的建设过程中,我们采取了多方合作的模式,语料的丰富性和语料的数量得以大大提高,但是所采集的语料内容驳杂,质量不一,有些语料所带的属性特征也不完备,为后来的语料加工带来了很多的麻烦。
第三项工作就是语料的加工处理,这项工作有两个困难之处。第一个困难之处就是先要制定语料加工的标准,例如分词和词性标注标准、结构分析和标注标准、常用构式标注标准、离合词标注标准、偏误标注标准、错别字标注标准、语料来源标注标准等等;第二个困难就是具体的标注工作,有了标准还不够,这些标准还必须具备可操作性,否则的话,在实际标注的过程中还会碰到很多拿不准的问题。事实上也是这样,我们的标注工作请了很多研究生来做,尽管在开始标注之前都做过培训,但是我们仍然发现标注的结果五花八门,必须要进行过程监测和后期干预,尽管如此,语料库标注还是有很多不能尽如人意的地方。我们都知道,如果语料库的标注出现了错误,那么检索的结果就会大打折扣。汉字的偏误是最难处理的,第二语言学习者汉字偏误的类型很多,有很多类型是我们母语者不会有甚至想象不到的。另外,如果要造字的话,图形文件所占的空间巨大,会影响检索速度,花费的时间成本也很高。所以我们在HSK动态作文语料库中干脆把整个语篇的扫描件放在语料库里,用户可以自行检索。口语语料的加工和处理也是相当困难的,口语录音需要进行转写,而在转写的过程中会不经意间过滤掉很多副语言信息。如果我们要对口语进行多模态的研究,这些副语言信息也是很有价值的。
第四项工作就是语料库的检索系统软件的研发,这项工作需要计算机技术工作者参与,由我们提出目标和要求,然后请技术人员来实现这些目标和要求。这需要语料库的设计者、建设者和技术人员不断沟通。语料库在使用的过程中发现了很多问题,我们会与技术人员坐在一起,共同讨论如何解决这些问题。
第五项工作就是用户反馈的处理。语料库上线之后很多问题会一个一个地暴露出来,这时候就要对语料库进行修改和后台维护,这个过程要持续两三年。如果是一个小型的语料库,后台维护的工作量没有那么大,假如是一个大型的多功能语料库,那么后期维护的工作量就非常大了。张宝林教授不仅要对语料库的建设过程进行质量监督,还要负责对用户的问题进行反馈。我很遗憾没能为张宝林教授配置更多的助手,以至于让张宝林教授早生华发。他自己虽然说乐在其中,但我们都知道,苦亦在其中矣!
第六项工作是语料库的安全问题。语料库上线之后会受到黑客的攻击和勒索者的觊觎,保证语料库的安全是极其重要的问题。我们都知道数据安全问题是一个不容忽视的问题,也是一个困难重重的问题。道高一尺,魔高一丈,黑客和勒索者如果找到我们的漏洞进行攻击,将会给我们造成不可估量的政治损失和经济损失。
语料库语言学是近30年来蓬勃发展起来的一个分支学科,在这个分支学科里有很多学术问题需要探讨。这些问题包括语料库建设的标准、语料库建设的原则、语料库整体设计与检索平台的搭建、语料库建设的可持续发展、语料库的应用与研究等等。张宝林教授在这些方面都有过深入的思考,更为可贵的是,他会把自己的思考应用于实践当中。因此他的研究都是很接地气的。中介语语料库的开发与建设是要为国际中文教育事业服务的,因此满足一线教师和研究者的需求就是语料库建设者的最高目标。那么一线教师和研究者的需求是什么呢?这是一个很不容易回答的问题。因为他们的需求太多元化了。一线教师在备课的时候遇到困难会想到利用语料库进行检索,从而发现一些语言本体在结构上和运用上的规律性,研究者在研究问题的时候也要考虑能否利用语料库来解决这些问题。一线教师备课的时候遇到的问题是原子主义的,非常分散,很难聚焦,语料库可以在多大程度上给他们提供帮助,取决于语料库的功能。一线教师碰到最多的问题是同义词和近义词辨析的问题,同义词和近义词在意义上的区别,可以通过查阅词典来解决,但是在用法上的区别需要到语料库中去找答案。研究者遇到的问题更加具有挑战性,假如一个研究者要研究汉语第二语言学习者的习得过程,那么他可以到语料库中来寻找线索;假如一个研究者要研究非汉字文化圈的二语学习者汉字习得的困难,他也可以到语料库中来寻找线索;假如一个研究者要研究某一个具体的构式,他也可以到语料库中来寻找线索,他可以从中介语的偏误中发现这个构式在结构和意义方面的问题,以及学习者的难点等等。语料库的规模也是一个很值得研究的问题,我们在实践中认识到,语料库并不是规模越大越好,够用就好。那么多大规模的语料库才算够用呢?这也是需要我们认真研究的问题。我们在利用大规模语料库进行研究的时候往往会发现,所检索出的例句远远超出我们的需求,而我们还必须对检索出的这些例句进行二次加工,用抽样的办法选出我们想要的数量。假如语料库在建设的时候就考虑到这一点,我们就可以对语料库进行分级加工,分出不同规模的语料子库,让用户多一种选择。
语料库的建设与研究已经进入了2.0时代,我们希望有更多的后来者能够加入这支队伍,在语料库的建设与研究的过程中能够为中国语言学的发展做出独特的贡献。
是为序。
崔希亮
2022年3月28日
于京华朝暾堂