汉语作为第二语言搭配知识习得机制研究
上QQ阅读APP看书,第一时间看更新

2.4 计算语言学领域的搭配研究

20世纪60年代,随着机读语料库的出现和语料库研究方法的发展,一些研究者开始尝试进行基于语料计算的搭配研究。继Halliday(1961)提出节点词、搭配词、跨距等概念,在搭配研究中引入了量化指标之后,Sinclair(1996)又增加了偶然搭配、显著搭配等概念。这些概念成了计算语言学视角下搭配研究的基本概念,被广泛应用于基于文本语料的搭配分析,如Carter(1987)、Kjellmer(1984)等(转引自郝瑜鑫,2017)。Berry-Rogghe、Jones和Sinclair等通过实际操作,计算出了搭配的具体跨距。Berry-Rogghe(1973)认为一般搭配的跨距为4,节点词为形容词时跨距只需要2。Jones & Sinclair(1974)的研究结果显示:95%的搭配在节点词(node)左、右分别±4个词(orthographic words)的范围内。

此后,很多研究者从计算语言学的角度对搭配进行了多方探索,研究成果主要集中在基于语料库的搭配描写和属性计算研究、搭配的自动识别和自动获取、相关软件的开发等方面。

基于语料库的搭配描写和属性计算研究一般面向大规模语料,采用统计方法和人工抽样观察的方法获取搭配的各种特征(如Sinclair,1991;孙茂松、黄昌宁、方捷,1997;孙茂松、左正平,1998;孙宏林,1998;Huang & Ahrens,2000;卫乃兴,2002b;邓耀臣,2003;程月,2008;李斌,2011a等)。孙茂松等(1997)以强度、离散度、尖峰值为统计指标构建了相应的判断算法和评估体系,对搭配进行了较全面的考察。邓耀臣(2003)介绍了包括MI值和T值在内的词语搭配统计方法的优缺点。卫乃兴(2002b)重点介绍了“基于语料库数据”和“语料库数据驱动”两种词语搭配研究方法。程月(2008)利用“清华书库”统计了动宾搭配的频率、平均距离、方差等。黄居仁等(Huang & Ahrens,2000)则利用新的语言模型和相应的搭配获取技术研究搭配。

搭配的识别主要考察语料中搭配实例(Tokens)的自动识别(李斌,2011a:23),代表性的研究成果有孙宏林(1997)、陈小荷(1999)、詹卫东(1999)、高建忠(2000)、王霞(2005)、王素格等(2006)、程月等(2007)、程月(2008)、程月和陈小荷(2009)、贾晓东(2008)、李斌(2011a)等,其中大部分主要研究了动宾搭配的自动识别。如孙宏林(1997)利用从语料库中归纳出来的14条语法规则来识别动宾搭配;程月等(2007)利用CRF模型对动宾搭配进行识别;李斌(2011a)则从多种角度探讨了动宾搭配的语义分析和自动识别框架以及相应的计算分析方法。

搭配自动获取的研究主要是针对搭配型(types)的获取,主要服务于词典编纂和搭配知识库的建立(李斌,2011a:21)。国外的研究有Smadja(1991a),Shimohata、Sugio & Nagata(1997),Kim、Yoon & Song(2001),Pecina & Schlesinger(2006)等。国内代表性的研究有孙茂松等(1997)、曲维光(2005)、杨军玲(2006)等。孙茂松等(1997)利用构造的搭配算法获取、分析了“能力”一词可能构成的搭配;曲维光(2005)提出了基于框架的词语搭配自动获取方法,构建了多种统计信息量和语言知识相结合的词语搭配抽取模型,并以“能力”一词为例进行了实验。

一些研究者以搭配识别和获取相关研究的成果为基础,开发了相关的应用软件。如Smadja等人研发的Xtrat检索工具可以从大规模语料中识别提取搭配(Smadja & McKeown,1990;Smadja,1991b,1992);Biber(1993)开发的搭配自动提取工具Factor Analysis可以识别目标词的典型搭配、计算搭配出现频率等;Smadja等(1996)则研发了自动翻译搭配的工具Champollion,旨在提供高于单词层级的双语词汇翻译信息。这些软件都有助于开展基于语料库的搭配研究和词典编纂工作。

总的来看,目前国内外在搭配的自动识别和获取方面都有比较深入的研究。相比之下,国内汉语搭配的自动识别和获取研究与国外还有一定差距,在相关软件的开发方面尚无突破性的成果。