序言
杜家利副教授曾是我的博士生,多年来,他一直在研究花园幽径现象(Garden Path Phenomenon)。此前,他曾出版了《非对称性信息补偿假说——花园幽径模式的困惑商研究》一书,提出了“非对称性信息补偿假说”(Asymmetric Information Compensation Hypothesis),尝试利用“困惑商”(Confusion Quotient)这一概念来解释语言理解过程中出现的花园幽径现象。现在,他和于屏方教授合写的新著《花园幽径句行进错位的计算语言学研究》就要在商务印书馆出版了,我对他们表示热烈的祝贺。
本书的重点是研究花园幽径现象中的“行进错位”。那么,什么是花园幽径现象中的行进错位呢?
我这里举一个汉语的例子来说明。
我们知道,“小王研究鲁迅的文章发表了”这个汉语句子是一个花园幽径句。这个句子的前一个部分“小王研究鲁迅的文章”是有歧义的,这一部分可以分析为“小王/研究鲁迅的文章”,其中,“小王”是主语,“研究鲁迅的文章”是谓语,形成一个主谓结构;这个部分又可以分析为“小王研究鲁迅的/文章”,其中,“小王研究鲁迅的”是定语,“文章”是中心语,形成一个定中结构。语料统计发现,把整个句子的前一个部分理解为主谓结构比之于把它理解为定中结构更为优先,也就是说,大多数人倾向于把前一个部分理解为主谓结构,而不倾向于理解为定中结构。可是,当出现了后一个部分“发表了”的时候,就必须把前一个部分“小王研究鲁迅的文章”理解为定中结构,而不能把它理解为主谓结构,原来居于优先地位的理解被抛弃,而原来居于非优先地位的理解却成为了正确的理解结果,整个句子的理解过程发生了转折,出现了原先预想不到的错位,这就是花园幽径句的行进错位。这种行进错位,在汉语和英语中并不罕见,在理论上和应用上都有研究价值。
关于花园幽径现象中的这种行进错位,国内外学者曾经从心理学和认知科学的角度进行过研究,有丰富的研究成果。杜家利和于屏方另辟蹊径,从计算语言学的角度进行研究,这是他们的创新之处。
在数据结构方面,他们采用良构子串表(Well Formed Substring Table, 简称WFST)来描述行进错位。在良构子串表中,每一个子串在结构上都是合格的,因而也都是良构的,但是这些良构子串形成的整个结构不一定是完全的,这些良构子串甚至不能结合为整个的结构,它们只是形成一个表(table),因此良构子串表可以表示完全结构,也可以表示不完全结构,还可以表示歧义结构。良构子串表能够把剖析过程中那些在局部上良构的中间结构保存下来,不至于因为它们不能形成完全结构而轻易地把它们抛弃,这样就可以有效地描述花园幽径现象中的行进错位。
在算法方面,他们采用递归转移网络(Recursive Transition Network, 简称RTN)来表达行进错位的动态过程。由于语言符号具有递归性,类别相同的语法结构会多次在语言中出现,在语言研究时可以把语法结构加以抽象化,用有限的语法结构和规则来描述无限的、千变万化的句子。递归转移网络正是根据语言符号的这种递归特性研制出来的。在递归转移网络中,主网络可以分解为若干个附属于它的子网络,句子的剖析要经过主网络和子网络之间多次的下推(PUSH)和上托(POP)操作,往往下推了还要再下推,上托了还要再上托,这样就可以把花园幽径现象的行进错位过程生动地、具体地表示出来。
他们还使用Stanford Parser进行自动句法剖析。Stanford Parser是美国Stanford大学开发的一个自动剖析器,可以用来做短语结构分析和依存关系分析,打开网址之后,点击 try out our parser online,就可以进行自动句法剖析了。Stanford Parser是用Java实现的,它把优化的概率上下文无关语法(Probabilistic Context Free Grammar,简称PCFG)剖析器、词汇化的依存语法剖析器(lexicalized dependency parser)和词汇化的概率上下文无关语法剖析器(lexicalized PCFG parser)结合在一起。Stanford Parser还开发了图形界面(GUI),可以让用户直接看到剖析输出的短语结构树(phrase structure tree)。Stanford Parser大大减轻了两位作者的程序设计工作量,使得他们可以集中精力来研究花园幽径现象行进错位中的理论问题。对于语言学背景的计算语言学研究者来说,这不失为一个非常明智的做法。
本书是杜家利博士出版的第三部关于花园幽径现象的专著。现在,于屏方博士也加入了花园幽径现象的研究。他们的研究力量越来越强大了,我希望他们再接再厉,在已经取得的成果的基础之上更上一层楼。
2015年4月1日
杭州钱塘江畔