序
我第一次见到Hannes是在2006年,当时我们正开始在同一个系攻读不同的研究生学位。很快,由于他将机器学习和电气工程相结合,并全身心投入对世界产生积极影响的事业,他变得非常出名。在他的整个职业生涯中,这种全身心投入的信念指引着他接触过的每一家公司和每一个项目。正是在这种信念的指引下,他与Hobson和Cole建立了联系,他们对能带来积极影响的项目有着同样的热情。
当我着手写这篇文字时,正是机器学习(machine learning,ML)让生活变得更美好的热情打动了我。我个人在机器学习研究方面的旅程中也同样受到一种强烈愿望的指引,即希望对世界产生积极影响。我在研究历程中开发了多分辨率生态数据建模算法,以优化物种分布的保护和调查目标。从那时起,我就下定决心继续在那些可以通过应用机器学习来改善生活和体验的领域工作。
能力越大,责任越大。
——伏尔泰?
无论把这句话归功于伏尔泰还是本叔叔(Uncle Ben)[1] ,这句话到今天都依然适用。不过在这个时代,我们或许可以这样说:“数据越多,责任越大。”我们信赖那些拥有数据的公司,希望它们将这些数据用于改善我们的生活。我们允许自己的电子邮件被这些公司扫描以纠正邮件文字中出现的语法错误。这些公司研究我们在社交媒体上的日常生活片段,将其用于向信息流中注入广告。手机和家居能够对我们说的话做出反应,有时在不跟它们说话的时候也会有响应。它们甚至会监控我们的新闻偏好,以迎合我们的兴趣、观点和信仰。那么,所有这些强大科技的核心是什么呢?
答案是自然语言处理(Natural Language Processing,NLP)。在本书中,读者不仅会学习这些系统的内部工作原理,还会学习相关的理论和实践技能,并创建自己的算法或模型。基本计算机科学概念无缝地转换为方法和实践的坚实基础。从一些久经考验的经典方法(如TF-IDF)开始,再深入到NLP相关的深层神经网络,作者带领读者对于自然语言处理的核心方法开启了一段清晰的体验之旅。
语言是人类建立共识的基础。人们之间交流的不仅有事实,还有情感。通过语言,人们获得了经验领域之外的知识,并通过分享这些经验来构建理解的过程。通过本书,大家将会深入理解自然语言处理技术的原理,有朝一日可能创建出能通过语言来了解人类的系统。自然语言处理技术有很大的发展潜力,但也可能被滥用。在本书中,作者希望通过分享这些知识来给我们一个更光明的未来。
Arwen Griffioen博士
Zendesk公司高级数据科学家
[1] 伏尔泰,18世纪法国著名的启蒙思想家、文学家、哲学家。本叔叔,美国漫画人物,蜘蛛侠的叔叔。——译者注