《Kaldi语音识别实战》[33M]百度网盘|亲测有效|pdf下载

书籍详情

Kaldi语音识别实战
出版社:电子工业出版社
出版时间:2020-04
热度:10642
上架时间:2024-06-30 09:08:33
价格:0.0

书籍下载

点击下载

书籍预览

查看链接

免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源，一旦发现资源涉及侵权，将立即删除。希望所有用户一同监督并反馈问题，如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

产品特色

编辑推荐

适读人群：人工智能领域从业人员。

Kaldi的出现，被业内公认为极大地降低了语音识别技术学习与使用的门槛，成为广受欢迎的工具。

本书由Kaldi的知名贡献者和社区技术骨干撰写，结合实际场景，系统全面地阐述了Kaldi的基础理论和应用知识，非常适合入门，是珍贵的学习资料。

本书脉络清晰，讲解亲民，非常适合从人工智能其他领域转行入语音识别领域的读者和语音识别领域的从业人员阅读。

本书特色：

1 以Kaldi脚本实例为线索，结合大量示例，降低学习门槛
2 详述各类实践技巧，举一反三
3 实际场景问题分析与解决方案

4兼述语音技术其他关键应用：语音唤醒（关键词识别）、说话人识别、语种识别

内容简介

刚刚过去的十年是语音技术发展的黄金十年。2010 年前后，从谷歌公司发布第一个语音搜索应用、苹果公司发布第一个语音助手 Siri 开始，语音技术的发展转瞬进入了快车道。

语音技术的基础算法不断推陈出新，语音任务 Benchmark 持续被刷新；语音产品的应用也从一开始很小众的语音输入，逐渐渗透到人们生活的方方面面。

语音产业飞速发展，传统的语音技术教材已经满足不了该领域从业者的迫切需求。本书以目前流行的开源语音识别工具 Kaldi 为切入点，深入浅出地讲解了语音识别前沿的技术及它们的实践应用。本书的作者们拥有深厚的学术积累及丰富的工业界实战经验。

本书适合语音技术相关研究人员及互联网从业人员学习参考。

作者简介

陈果果

清华大学本科学位，约翰霍普金斯大学博士学位，主要研究方向是语音识别及关键词检索，师从语音识别开源工具Kaldi主要开发者Daniel Povey，以及约翰霍普金斯大学语言语音处理中心教授Sanjeev Khudanpur。博士期间为Google开发了Google的唤醒词Okay Google的原型，现在已经用到数以亿计的安卓设备及Google智能语音交互设备上。博士期间同时参与开发语音识别开源工具Kaldi，以及神经网络开源工具CNTK。博士毕业以后联合创办KITT.AI，专注于语音识别及自然语言处理，公司于2017年被百度收购，目前担任百度智能生活事业群组（SLG）主任架构师。

都家宇

本科毕业于大连理工大学，后于澳大利亚新南威尔士大学电子信息工程学院学习，取得信号处理专业硕士学位。研究生期间在导师 Julien Epps 指导下开始进行语音处理、情绪识别方向的研究。毕业后先后任职于清华大学语音技术实验室、百度语音技术部，以及阿里巴巴iDST、达摩院语音组，从事声学模型、解码器、语音唤醒等方面的研发工作。参与过与 Kaldi 相关的工作有：Kaldi nnet1神经网络框架中 lstm 作者；发起并推动全球大规模的中文开源数据集语音项目AISHELL-1、AISHELL-2，已服务于清华大学、北京大学、南洋理工大学、哥伦比亚大学等近200所国内外高校的科研项目。

那兴宇

本科和博士均毕业于北京理工大学，主要研究方向是语音识别和语音合成。先后任职于中国科学院声学研究所和阿里巴巴机器人，从事语音识别模型训练系统和语音交互系统的开发。目前就职于微软，担任资深应用科学家，从事语音识别算法和技术架构的开发及业务支持工作。2015年开始在Kaldi开源项目中贡献代码，参与了nnet3和chain模型的开发工作，并维护其中若干示例及OpenSLR的中文语音识别模型。

张俊博

博士毕业于中国科学院声学研究所，师从颜永红研究员。在小米公司从零起主导构建了整套语音算法研究框架，包括语音识别、智能设备语音唤醒、声纹识别、语音增强、用于语音应用的神经网络部署，均达到了当时的先进水平，并发表顶会论文若干篇，为后续的语音研发工作建立了基础。近期上线了用于外语学习的发音质量评测引擎，并给Kaldi贡献了发音良好度评分的代码。

精彩书评

颜永红中国科学院语言声学与内容理解重点实验室主任

Kaldi 开源软件对推动语音技术研究和产品落地做出了不可磨灭的贡献，本书作者是工作在语音研究和产业前沿的青年才俊，他们以第一手经验详细讲解了如何运用该软件构建实际系统，这对初学者迅速掌握相关知识和技能是非常有益的。

俞凯上海交通大学智能语音技术实验室主任，思必驰联合创始人、首席科学家

我和Dan Povey博士十几年前在剑桥大学共事时，使用的是早期著名的语音识别开源软件之一：HTK。虽然后来Kaldi因其灵活的设计、开放的协议和丰富的功能而如日中天，却一直在系统教程方面远远落后于HTK。本书从理论和实践的角度对Kaldi做出了完整呈现，不仅有其实用价值，也为“知其所以然”给出了很好的注解，相信必然会对Kaldi的传播和语音识别技术的发展起到积极的作用。

崔宝秋小米集团副总裁、集团技术委员会主席

Kaldi是开源语音技术的一个典范，是高校同学们入门语音的启迪工具，也是人们快速提升语音技术的捷径。它消除了大家因为长期沉浸在语音教科书和论文里而产生的“手痒”，给人们带来快速上手实践、快速感受语音数据之美的快乐。本书作者们都有丰富的工业界（包括小米）实战经验和深厚的学术积累，他们把这些经验和积累无私地贡献出来，也真正体现了开源的共享精神。拥抱开源是小米的工程文化，衷心希望Kaldi及其社区在Daniel Povey博士的领导下不断茁壮成长、引领语音技术的发展。

张锦懋美团首席科学家、基础研发平台负责人

Kaldi的诞生使得语音识别领域的研究和创新成本都显著降低，让整个行业都获益匪浅。这本书的几位作者非常全面地介绍了Kaldi的功能，包括数据处理、声学模型、解码器等相关的工具，同时对相关理论也做了详细的阐述，让读者不仅学会使用Kaldi，而且能够理解为什么这么使用。

雷欣出门问问首席技术官

Kaldi相比于经典的HTK工具包做了巨大的优化，譬如C++的采用、基于WFST的静态解码器、达到state-of-the-art性能的recipe脚本等。这些优势使得Kaldi开源库得到迅速的发展，极大地降低了语音技术的门槛，使得像出门问问这样的语音创业公司能在短时间内开发出优秀的语音技术产品。相比于经典的HTK Book，Kaldi在文档方面则显得落后很多。本书的作者们都是Kaldi社区的活跃开发者，对Kaldi及语音技术有着深刻的理解，他们的努力使得中国的语音技术爱好者们有了一本入门和提高的参考书，必将又一步推动语音技术的普及。

邹月娴北京大学教授、博士生导师，深圳市人工智能学会专家委主任

我在北京大学深圳研究生院开展教学和科研工作十四个整年头，其间为计算机应用技术专业的学生主讲“机器学习与模式识别”课程，带领一群优秀的研究生开展机器听觉技术研究。我们的教学和研究得益于众多的开源项目，深切体会到Kaldi作为主流的语音识别开源工具对同学们的帮助。Kaldi秉承其开源社区的传统特性，支持主流的机器学习框架和算法，受到众多业界和学界开发者的支持。我相信本书的作者们正是秉承这样的精神，以实际行动支持Kaldi开源社区。这本书不仅介绍了语音技术的发展简史、Kaldi的发展历史，也涵盖了新的基于深度学习的语音技术主流框架和语音识别应用实践案例，所呈现的内容和提供的实战技巧贴近产业需求，该书的出版将有益于学子们更加快速地了解主流的语音技术并迅速开展编程实践，推动语音技术提升和应用的发展。

李岚中软国际教育科技集团人工智能研究院执行院长

人工智能技术在近年被确立为国家战略后，高校和企业间深度合作，在人工智能的人才培养上形成了一致看法，即实践是学校和学生的一致需求。从产业界的实际发展来看，随着人工智能技术应用领域的扩展，“听”这一感知领域，已经是迫切需要得以提升和发展的。企业专家，特别是实际应用领域的专家联合推动的行业数据和技术开源，为这个领域的人才培养做出了贡献。而如何让更多的老师和学生们了解语音领域的发展现状及学习路径，需要和本书的作者们一样，分享自己的理解和系统梳理。我们也将在后续工作中，将本书作为我们的教材之一，希望能推动语音领域人才的培养。

前言/序言

序1

最近这段时间我的生活有了一些戏剧性的变化，大家可以从一些新闻（比如《纽约时报》）中看到具体的报道。因为这些变化，我目前暂时在做一些咨询的工作，也因此有机会到世界各处巡游。比如此时此刻，在为这本书写序的时候，我正在土耳其伊斯坦布尔的一家小咖啡馆里。写序其实并不是一个我所擅长的事情，相对来说，我更喜欢写程序，但是我会尽我所能为这本书写序。

计算机软件很少有处在稳定状态的，对于Kaldi来说尤其如此。用鲨鱼的例子来做类比，鲨鱼是从来不休息的，必须通过持续的运动才能生存；Kaldi也是这样，这些年来一直都在一刻不停地、持续地发展壮大。当然，发展是一把双刃剑，这么高速的发展给Kaldi带来了很多发展红利，也不可避免地带来了问题。事实上，在当前版本的Kaldi开发中，我们做出了不少正确的决定，但是回过去看，也有不少不尽如人意的设计。因此，我目前正在为Kaldi规划一些比平常大得多的改动，比如更好地支持当前主流的机器学习框架，例如PyTorch。当然，Kaldi大部分的特性都会保持不变，因此我相信这本书的内容会一直有很大的参考价值。

Kaldi最宝贵的资产其实一直都是Kaldi的开源社区。我相信这本书的出版能够极大地推动Kaldi开源社区的持续发展。对我个人来说，无论将来在哪里工作，我也都会继续全身心地投入到Kaldi项目中。

Daniel Povey 2019年9月27日

作者译 2019年9月27日

序2

在最近的十年里，语音识别、语音合成和语音信号处理都有了长足的发展。这些发展一方面归功于研究人员在语音处理领域引入了一系列新的研究成果，比如序列上的区分度训练和基于深度学习的识别和合成框架，另一方面得益于用户在移动互联网时代对语音技术的应用需求和与之对应的海量数据和强大计算力，这些因素互相促进，极大地推动了语音技术的发展，并使得语音技术的性能指标在几年前就超过了用户的使用门槛，催生了大量的实际应用。

在技术和应用的发展过程中，工具一直占有着重要的地位，比如，TensorFlow、PyTorch、CNTK、MXNet等深度学习工具的出现极大地推动了深度学习的发展。而语音系统链路复杂，涉及的技术模块多样，所需的领域知识点繁多，对工程优化的要求高，好的工具就显得尤为重要。早期的语音识别的发展大大得益于HTK和Sphinx 工具集，而在最近的十年里，Kaldi工具箱对于语音技术的普及和研发起到了举足轻重的作用。

Kaldi起源于2009年的约翰霍普金斯大学夏季研讨会，当时我在微软研究院语音与对话研究组的同事Dan Povey博士提出了Subspace Gaussian Mixture Model （SGMM），并在研讨会上组织研究了这个模型。作为这个研究的一个副产品，他们开始整理和开发一个新的语音技术工具箱Kaldi，并采用了开源的开发模式。经过十年的发展，Kaldi已经成为深度学习时代主流的语音技术工具箱，集成了大量的最新进展和最优脚本，极大地降低了语音技术的研究和应用门槛。

不过，Kaldi是一个持续发展中的开源项目，它的文档大大落后于代码。本书作者们基于自己多年的一线语音研发和 Kaldi 使用经验，深入浅出地介绍了语音识别各个模块的原理及Kaldi中各种实践技巧的来龙去脉和使用方法，极大地弥补了 Kaldi文档方面的缺陷，降低了Kaldi的学习和使用门槛，有助于Kaldi的进一步推广和开发。

俞栋 IEEE Fellow，腾讯人工智能实验室副主任

2019年9月28日于西雅图

查看全部↓

相关推荐

图深度学习

知识图谱：概念与技术

阿里云天池大赛赛题解析――深度学习篇

Kaldi语音识别实战