第八章 语言的输入A
一、正转录流程描述
在前面较为宽泛的讨论之后,我们已经熟悉了应该熟悉的概念,做好了精确讨论的准备,本章我们开始描述和正转录相关的工程上的设计。
人类处理输入的语言,无论是一句话表达,还是成段的表达,还是一本书的信息,都是以每个单句作为信息单元逐句处理的。处理的过程会维护一个语境记忆,以应对表达中的省略,形成对表达信息的主要逻辑,以及各种信息之间关系的提取。因为语境记忆的存在,虽然是单句逐句处理,但最终摄取的信息却不是零碎的。
对于单句信息。第一步,需要先识别当中的词汇,词汇是构建句子的积木。词汇有三种类型,第一种是背后有概念对应的词汇,比如“苹果”“文化”;第二种是结构信息的位格名称,比如二元关系中的“爸爸”“仇人”;还有一类是为了赋予句子足够的结构特征,方便听者识别的“结构性词汇”,比如中文中的“的”“是”“但是”“所以”等,英文中“is”“however”“because”等。
第二步,识别完词汇后,会把第一类对应概念的词汇用概念ID替换,第二类对应结构信息位格名称的词汇用结构信息位格ID替换,结构性词汇保留原有形态。
第三步,如果第二步输出的信息是合法的表达,已经能够找到统辖它的句子结构母类,接着我们要完成:
A.进行统辖搜索。
B.找到统辖这个概念替换词汇后的句子的句子结构信息,并建立具体概念到句子结构中对应的较为抽象的概念的约束映射。
C.找到句子结构信息对应的表达单元信息。
D.用约束映射进行表达单元信息中对应抽象层概念的替换,演绎出具体的表达单元信息。
如果句子中包含嵌套结构,那么我们无法直接识别到最外层语法结构(这里也就是指语法映射两部分信息中的句子结构信息),需要句子中包含的小语法结构,转为所描述或指向的概念ID后,更大的语法结构才会显现出来。
以上是对正转录流程的简要描述,具体每步都会包含更多细节的内容,需处理各种非理想化的情况,主要就是我们两章前描述的所有自然语言都会遇到的4个问题:(1)如何应付嵌套,尤其是多重嵌套;(2)如何维护语境信息;(3)如何应付语境省略和常识省略;(4)如何应付意向表达。接下来我们就带着这些问题来具体讨论每个环节的信息处理逻辑。