上QQ阅读APP看书,第一时间看更新
第1章 自然语言处理基础
自然语言处理(Natural Language Processing,NLP)是一个跨学科领域,它结合了计算科学、语言学、认知科学和人工智能,主要研究能够让计算机实现与人类语言有关的各类任务的各种理论和方法,特别是如何对计算机进行编程以处理和分析大量自然语言数据(非结构化的数据)。从科学的角度来看,NLP旨在对人类语言理解和产生的认知机制进行建模。从工程角度来看,NLP关注如何开发新颖的实际应用程序以促进计算机与人类语言之间的交互。在自然语言处理中,经常遇到的挑战包括语音识别、口语理解、对话系统、词汇分析、句法解析、机器翻译、知识图谱、信息检索、问题问答、情感分析、社交计算、自然语言生成和自然语言摘要等。当然,自然语言处理工作也是计算机科学中极其困难的工作任务。语言本身存在着各种各样的问题,亦因语言而异。
幸运的是,最近几年深度学习领域获得快速发展,使得深度学习算法在诸如图像分类、语音识别、文本生成、机器翻译等诸多带有很强挑战性的工作任务中表现优异,加速了深度学习与NLP各工作任务的深度融合,从而使得自然语言处理领域焕发出新的活力。而在深度学习被广泛应用的过程中,出现了多种技术框架,其中TensorFlow是目前最直观、最有效的深度学习框架之一。本书重点探讨如何利用TensorFlow深度学习框架去实现NLP的各种任务,例如句子分类、文档分类、文本生成、图像字幕自动生成、机器翻译、智能问答等。
在本章中,我们将要对于自然语言处理基础有一个初步了解,并对NLP的主要工作任务做一个划分;然后我们将对NLP领域的三个发展浪潮做详细解读,并对当前NLP领域中深度学习的局限性进行剖析;最后,我们还会对于NLP的应用场景和应用前景做个简要阐述。