上QQ阅读APP看书,第一时间看更新
1.4.2 自然语言处理
如果说计算机视觉是模拟人类“看”的能力,那么自然语言处理(Natural Language Processing,NLP)就是模拟人类的“语言”能力,这里的“语言”是指说话和写作能力。站在专业的角度来讲,NLP就是以一种智能高效的方式对人类创造的文本数据进行系统地分析、理解和提取信息的过程。
NLP的研究任务很广泛,在本书中我们将它分为5大类:词法分析、句子分析、语义分析、信息抽取和顶层任务。词法分析就是以词为单位对数据进行分析,这是NLP中最基本的工作。常见的词性标注和拼写校正任务就属于词法分析。句子分析就是以句子为单位的分析任务。语义分析就是通过对文本数据的分析,生成对应文本数据的语义信息的形式化表示,常见任务有词义消歧等。信息抽取是NLP任务中应用最广泛的一个,简单理解就是从非结构化的文本数据中抽取出用户所需的结构化信息。常见任务有命名实体消除、情感分析、实体消歧等。所谓顶层任务就是直接面向用户的任务,比如机器翻译或文本摘要,它需要多种任务结合生成对应的可以直接读取的输出结果。另外顶级任务还包括对话系统、阅读理解等。
NLP机制涉及两个流程:自然语言理解和自然语言生成。我们都知道文本数据是非结构化语言,而计算机擅长处理的是结构化数据。所以在NLP机制中,计算机首先需要从非结构化数据中进行读取,转化成结构化数据,通过语法知识和规则进行理解,然后将结构化数据进行组合,生成通顺的非结构化文本。
NLP的应用非常广泛,比如微博的热点推荐,就是通过用户对应的信息和经常浏览的信息进行情感分析,个性化推荐当前热点。另外邮件的垃圾分类、用户体验反馈等也都是通过自然语言处理技术实现的。