Kaldi语音识别实战
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

好评来袭

颜永红 中国科学院语言声学与内容理解重点实验室主任

Kaldi开源软件对推动语音技术研究和产品落地做出了不可磨灭的贡献,本书作者是工作在语音研究和产业前沿的青年才俊,他们以第一手经验详细讲解了如何运用该软件构建实际系统,这对初学者迅速掌握相关知识和技能是非常有益的。

俞凯 上海交通大学智能语音技术实验室主任,思必驰联合创始人、首席科学家

我和Dan Povey博士十几年前在剑桥大学共事时,使用的是早期最著名的语音识别开源软件之一:HTK。虽然后来Kaldi因其灵活的设计、开放的协议和丰富的功能而如日中天,却一直在系统教程方面远远落后于HTK。本书从理论和实践的角度对Kaldi进行了完整呈现,不仅有其实用价值,也为“知其所以然”给出了很好的注解,相信必然会对Kaldi的传播和语音识别技术的发展起到积极的促进作用。

崔宝秋 小米集团副总裁、集团技术委员会主席

Kaldi是开源语音技术的一个典范,是高校同学们入门语音的启迪工具,也是人们快速提升语音技术的捷径。它消除了大家因为长期沉浸在语音教科书和论文里而产生的“手痒”,给人们带来快速上手实践、快速感受语音数据之美的快乐。本书作者们都有丰富的工业界(包括小米)实战经验和深厚的学术积累,他们把这些经验和积累无私地贡献出来,也真正体现了开源的共享精神。拥抱开源是小米的工程文化,衷心希望Kaldi及其社区在Daniel Povey博士的领导下不断茁壮成长、引领语音技术的发展。

张锦懋 美团首席科学家、基础研发平台负责人

Kaldi的诞生使得语音识别领域的研究和创新成本都显著降低,让整个行业都获益匪浅。这本书的几位作者非常全面地介绍了Kaldi的功能,包括数据处理、声学模型、解码器等相关的工具,同时对相关理论也进行了详细的阐述,让读者不仅学会使用Kaldi,而且能够理解为什么这么使用。

雷欣 出门问问首席技术官

Kaldi相比于经典的HTK工具包进行了巨大的优化,譬如C++的采用、基于WFST的静态解码器、达到state-of-the-art性能的recipe脚本等。这些优势使得Kaldi开源库得到迅速的发展,极大地降低了语音技术的门槛,使得像出门问问这样的语音创业公司能在短时间内开发出一流的语音技术产品。相比于经典的HTK Book,Kaldi在文档方面则显得落后很多。本书的作者们都是Kaldi社区的活跃开发者,对Kaldi及语音技术有着深刻的理解,他们的努力使得中国的语音技术爱好者们有了一本入门和提高的参考书,必将进一步推动语音技术的普及。

邹月娴 北京大学教授、博士生导师,深圳市人工智能学会专家委主任

我在北京大学深圳研究生院开展教学和科研工作十四个整年头,其间为计算机应用技术专业的学生主讲“机器学习与模式识别”课程,带领一群优秀的研究生开展机器听觉技术研究。我们的教学和研究得益于众多的开源项目,深切体会到Kaldi作为主流的语音识别开源工具对同学们的帮助。Kaldi秉承其开源社区的传统特性,支持主流的机器学习框架和算法,受到众多业界和学界开发者的支持。我相信本书的作者们正是秉承这样的精神,以实际行动支持Kaldi开源社区。这本书不仅介绍了语音技术的发展简史、Kaldi的发展历史,也涵盖了最新的基于深度学习的语音技术主流框架和语音识别应用实践案例,所呈现的内容和提供的实战技巧贴近产业需求,该书的出版将有益于学子们更加快速地了解主流的语音技术并迅速开展编程实践,推动语音技术进步和应用的发展。

李岚 中软国际教育科技集团人工智能研究院执行院长

人工智能技术在近年被确立为国家战略后,高校和企业间深度合作,在人工智能的人才培养上形成了一致看法,即实践是学校和学生的一致需求。从产业界的实际发展来看,随着人工智能技术应用领域的扩展,“听”这一感知领域,已经是迫切需要得以提升和发展的。企业专家,特别是实际应用领域的专家联合推动的行业数据和技术开源,为这个领域的人才培养做出了贡献。而如何让更多的老师和学生们了解语音领域的发展现状及学习路径,需要和本书的作者们一样,分享自己的理解和系统梳理。我们也将在后续工作中,将本书作为我们的教材之一,希望能推动语音领域人才的培养。