深度序列模型与自然语言处理:基于TensorFlow 2实践
上QQ阅读APP看书,第一时间看更新

1.1 自然语言处理简史

自然语言(Natural Language)指的是人类日常使用的语言,例如英语、汉语等;与此相对的是人为设计的、规则明确的形式语言(Formal Language),例如C语言、数学公式等。自然语言处理就是使用计算机算法对自然语言进行处理的过程。狭义的自然语言处理仅限于处理文本形式的输入,而广义的自然语言处理还包括对语音信息的处理。在不做说明的情况下,自然语言处理通常按照狭义的方式来理解。

此外,还有一个相关的术语叫计算语言学(Computational Linguistics)。从字面上看,计算语言学是语言学的一个分支,着重于用计算的方法来回答语言学的问题,例如转换生成语法(Transformational Generative Grammar)。而自然语言处理更侧重于计算机系统对语言的处理,例如搜索引擎的搭建。不过现在这两者之间的界限变得越来越模糊,自然语言处理领域的顶级学术会议就叫Annual Meeting of the Association for Computational Linguistics。

类似于人工智能的三种路线,自然语言处理的研究方法也有路线之争:经验主义(Empiricism)和理性主义(Rationalism)。前者主要依赖于数理统计和语料库,手段粗放但往往有效;后者设计精妙,可以帮助我们更好地认识语言,却在海量数据的时代有些力不从心。接下来,我们将更加详尽地了解自然语言处理能做什么,以及回顾过去几十年来自然语言处理的发展史。