上QQ阅读APP看书，第一时间看更新

序二

朱晨光博士现在（美国）微软公司担任高级研究员，主要从事自然语言处理方面的研究，包括机器阅读理解、任务驱动对话和文本摘要等。他在CCCF（《中国计算机学会通讯》）上写的一篇特约专稿《机器阅读理解：如何让计算机读懂文章》很受欢迎。机械工业出版社的编辑看到后，特邀他写书。近期，他完成了专著《机器阅读理解：算法与实践》，让我写一段序言。

自然语言处理旨在解决对自然语言的理解和生成问题。自然语言问题是人工智能皇冠上的明珠，是计算机重要的能力之一，也是研究难度很大的一个领域。人类常用的每一种自然语言都有其语法，但由于使用语言的人的风格不同，加上地方话和习惯用语等因素，所产生的语言千变万化。人和人之间的交流和理解一般是没有障碍的，但让计算机理解就非常困难。这是因为，目前的冯·诺依曼计算机体系结构处理有明确规则的事务比较容易，但处理规则多变的事务就显得有些力不从心。

多少年来，研究者提出和发展了很多方法，有基于语言学规则的技术，也有基于统计机器学习的模型。最近一段时间以来，研究者发展了端到端训练的深度学习自然语言处理体系，包括词嵌入、句子嵌入、注意力机制、编码/解码方法以及最近的预训练模型等，大幅提升了模型处理各项任务的能力，给自然语言理解带来了新的、有趣的思路。

机器（就是计算机）阅读理解是自然语言处理中最热门、最前沿的研究课题之一。阅读是人们获得信息的基本手段，没有阅读就没有理解，没有理解就无法交流。市面上已有很多聊天机器人产品，但人们发现这些机器人往往答非所问。究其原因，就是目前采用的技术是“文本比对”的黑盒方式，而实际上机器人并不理解人类在和它说什么。大家知道，人们在交流时是有语境（即上下文）的，通过联想，人们可以方便地理解对方在说什么，但是让机器了解语境确实是一件非常困难的事。为了解决这些问题，研究者提出了许多改进方法，不断提高模型理解对话与文章的能力。而且，一大批阅读理解数据集的发布强有力地推动了技术的发展。

机器阅读除了研究价值以外，还有许多很有意义的应用，比如文本摘要可以省去人们阅读全文的时间，问答系统可以从海量文档中精确地找到用户问题的答案。机器阅读也是翻译和对话的基础，这对计算机辅助人工服务有重大价值。

晨光的这本书系统地介绍了这个领域的关键技术、取得的进展，以及存在的问题。相信读者读完本书后，会对这一领域的研究及应用有一个比较清晰的认识。

晨光在上中学时参加了CCF主办的信息学奥林匹克竞赛，曾获得全国竞赛的金牌，也是国际赛IOI中国队的候选队员。因我是主席，那时就认识他了。他后来被保送到清华大学计算机系读书，毕业后又去斯坦福大学攻读博士学位，然后在微软从事自然语言处理方面的研究，造诣很高。我们很少见面，但一直保持联系。我认为他是一个天资聪颖、学风严谨而又非常通达事理的青年学者，因此非常乐意和他讨论问题。他提出让我写篇序，看到他的新的研究进展，我深感高兴，于是欣然提笔，也借此向他表示祝贺。

杜子德原中科院计算所研究员，现任中国计算机学会秘书长