《语音信号处理》[36M]百度网盘|亲测有效|pdf下载

书籍详情

语音信号处理
出版社:清华大学出版社
出版时间:2019-04
热度:10611
上架时间:2024-06-30 09:08:33
价格:0.0

书籍下载

点击下载

书籍预览

查看链接

免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源，一旦发现资源涉及侵权，将立即删除。希望所有用户一同监督并反馈问题，如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

产品特色

编辑推荐

语音交互是实现人工智能的基石！全面论述语音信号的生成、处理、压缩、传输、合成、识别与理解！清华、中科院、中国计算机学会、百度人工智能专家联袂推荐！本书适合作为丛书语音信号处理、音频处理等方向的工程技术人员，高校师生阅读，参考！

内容简介

本书系统地介绍语音信号处理的基础、概念、原理、方法与应用。全书共分9章。第1章介绍语音信号处理及其发展过程；第2章介绍语音信号的产生与人类听觉的机理，传统的线性语音产生模型，以及非线性语音产生模型；第3章从语音信号的时域特征入手，引入时频分析的思想，并进一步阐述时频分析中短时傅里叶变换和小波变换在语音信号特征分析中的应用，最后对广泛使用的倒谱特征以及同态解卷积进行介绍；第4章介绍语音信号的线性预测原理、解法、几种推演方法以及线谱对分析法；第5章介绍语音编码的相关知识，包括语音的波形编码、极低速率语音编码技术，以及相关编码器的性能指标和评测方法；第6章介绍语音识别的基本内容，从基于矢量量化的识别技术到动态时间归正的识别技术，从隐马尔可夫模型技术到基于深度学习的语音识别技术，从孤立词识别到连接词识别及连续语音识别技术，再到关键词检出技术，最后还介绍新兴起的语音识别应用技术，以及用于HMM系统构建的HTK工具和用于深度学习系统构建的Kaldi工具等；第7章介绍说话人识别的基本内容，从基于GMMUBM的识别技术到基于支持向量机的识别技术，从基于联合因子分析的识别技术到基于ivector的识别技术，以及近年来受到关注的基于深度学习的识别技术等；第8章介绍顽健语音识别技术，从影响语音识别性能的环境变化因素分析开始，介绍噪声环境下顽健语音识别技术，以及变异语音识别的技术；第9章介绍语音合成的基本原理、线性预测合成、共振峰合成以及汉语按规则合成，以及基于HMM的合成技术等内容。

本书可作为高等院校计算机应用、信号与信息处理、通信与电子系统等专业及学科的高年级本科生、研究生教材，也可供该领域的科研及工程技术人员参考。

作者简介

韩纪庆现任哈尔滨工业大学计算机科学与技术学院二级教授、学校长聘岗教授、博士生导师。兼任中国中文信息学会理事及语音处理专委会副主任、全国人机语音通讯学术会议常设机构委员会副主席、《中文信息学报》编委、《数据采集与处理》杂志编委。长期从事语音信号处理、音频信息处理等领域的教学与科研工作。作为项目负责人，正在主持和已经完成“国家自然科学基金重点项目”2项、“面上项目”5项、“国家973计划”课题1项、教育部“跨世纪优秀人才培养计划”基金1项及其他科研项目10余项。获省部级科技二等奖3项、三等奖2项。获国家发明专利7项。已在国内外刊物和会议上发表论文200余篇，并出版图书5部。

精彩书摘

第3章

CHAPTER 3

语音信号的特征分析

前面讨论了语言学、汉语语音学和信号模型等基础知识。语音信号处理虽然包括语音通信、语音合成、语音识别等，但其前提是对语音信号的分析。只有将语音信号分析表示成其本质特性的参数，才有可能利用这些参数进行高效的语音通信，才能建立用于语音合成的语音库，也才可能建立用于识别的模板或知识库。而且，语音合成的音质好坏、语音识别率的高低，都取决于对语音信号分析的准确性和精度。例如，利用线性预测分析来进行语音合成，其先决条件是要先用线性预测方法分析语音库，如果线性预测分析获得的语音参数较好，则用此参数合成的语音音质就好。又如，利用带通滤波器组法来进行语音识别，其先决条件是要弄清楚语音共振峰的幅值、个数、频率变化范围及其分布情况。因此，应先对语音信号进行特征分析，得到提高语音识别率的有用数据，并据此来设计语音识别系统的硬件和软件。

国内外的经验说明，语音分析的工作必须先于其他的语音信号处理工作。例如，20世纪40年代，贝尔实验室的研究人员就对语音信号分析做了大量的、卓有成效的工作，这些成果推动了语音信号处理的发展。

根据所分析的参数不同，语音信号分析可分为时域、频域、倒谱域等方法。进行语音信号分析时，最先接触到的、最直观的是它的时域波形。语音信号本身就是时域信号，因而时域分析是最早使用且应用范围最广的一种方法。时域分析具有简单直观、清晰易懂、运算量小、物理意义明确等优点，但更为有效的分析多是围绕频域进行的，因为语音中最重要的感知特性反映在其功率谱中，而相位变化只起着很小的作用。

常用的频域分析方法有带通滤波器组方法、傅里叶变换法和线性预测分析法等，其中线性预测方法将在第4章中具体介绍。频谱分析具有如下优点：时域波形较易随外界环境变化，但语音信号的频谱对外界环境变化具有一定的顽健性。另外，语音信号的频谱具有非常明显的声学特性，利用频域分析获得的语音特征具有实际的物理意义，如共振峰参数、基音周期参数等。

倒谱域是将对数功率谱进行反傅里叶变换后得到的，它可以将声道特性和激励特性有效地分开，因此可以更好地揭示语音信号的本质特征。

按照语音学的观点，可将语音信号分析分为模型分析法和非模型分析法两种。模型分析法是指依据语音信号产生的数学模型，来分析和提取表征这些模型的特征参数；共振峰模型分析及线性预测分析即属于这种方法。凡不进行模型化分析的其他方法都属于非模型分析法，包括上面提到的时域分析法、频域分析法及同态分析法等。

贯穿于语音信号分析全过程的是“短时分析技术”。根据对语音信号的研究，其特性是随时间而变化的，所以它是一个非稳态过程。但从另一方面看，虽然语音信号具有时变特性，但不同的语音是由人的口腔肌肉运动构成声道的某种形状而产生的响应，而这种肌肉运动频率相对于语音频率来说是缓慢的，因而在一个短时间范围内，其特性基本保持不变，即相对稳定，所以可以将其看作是一个准稳态过程。基于这样的考虑，对语音信号的分析和处理必须建立在“短时”的基础上，即进行“短时分析”。将语音信号分为一段一段来分析，其中每一段称为一“帧”（frame）。由于语音信号通常在10~30ms之内是保持相对平稳的，因而帧长一般取10~30ms。

本章首先介绍语音信号的数字化处理，接着介绍语音信号的时域处理技术及频域和倒谱域的相应处理。此外，还将介绍常见的倒谱特征、基音周期和共振峰参数的提取等。

3.1语音信号数字化

语音信号数字化之前，必须先进行防混叠滤波及防工频干扰滤波。其中防混叠滤波指滤除高于1/2采样频率的信号成分或噪声，使信号带宽限制在某个范围内；否则，如果采样率不满足采样定理，则会产生频谱混叠，此时信号中的高频成分将产生失真；而工频干扰指50Hz的电源干扰。由于防混叠和工频干扰滤波器在一个集成块中，实现起来很简便，在这里不再赘述。

3.1.1语音信号的采样和量化

语音信号是时间和幅度都连续变化的一维模拟信号，要想在计算机中对它进行处理，就要先进行采样和量化，将它变成时间和幅度都离散的数字信号。

在语音信号处理中，需要将信号表示成可以处理的函数的形式。对于模拟信号xa(t)，它表示函数值随着连续时间变量t的变化趋势。如果以一定的时间间隔T对这样的连续信号取值，则连续信号xa(t)即变成离散信号x(n)=xa(nT)，这个过程称为采样，其中两个取样点之间的间隔T称为采样周期，它的倒数Fs称为采样频率。

根据采样定理，当采样频率大于信号最高频率的两倍时，在采样过程中就不会丢失信息，并且可以用采样后的信号重构原始信号。实际的信号常有一些低能量的频谱分量超过采样频率的一半，如浊音的频谱超过4kHz的分量比其峰值至少要低40dB；而对于清音，即使超过8kHz，频率分量也没有显著下降，因此语音信号所占的频率范围可以达到10kHz以上。虽然这样，但对语音清晰度有明显影响部分的最高频率为5.7kHz左右。CCITT（国际电报电话咨询委员会）提出的G.711标准建议采样频率为8kHz，但一般情况下这只适合电话语音的情况，因为电话语音的频率为60~3400Hz。在实际的语音信号处理中，采样频率一般为8~10kHz。有一些系统为了实现更高质量的语音合成，或者使语音识别系统得到更高的识别率，将可处理的语音信号扩展到7~9kHz，这时的采样频率一般为15~20kHz。表31给出了采样率对语音识别系统性能的影响。

查看全部↓

前言/序言

前言

语音信号处理以语音为研究对象，涉及心理学、生理学、语言学、数字信号处理、模式识别、人工智能、机器学习等诸多研究领域，甚至还涉及人说话时的表情、手势等体态语言信息。由于语音是人们日常生活中的主要交流手段，因此语音信号处理在现代信息社会中占有重要地位。

语音信号处理的研究工作最早可以追溯到19世纪70年代，在20世纪得到了长足的发展，并在20世纪90年代，随着IBM、Microsoft、Apple、AT&T、NTT等著名公司为语音识别的实用化开发投以巨资，掀起了语音信号处理技术的应用热潮。进入21世纪，伴随着以深度神经网络为代表的深度学习理论的全面突破、以通用图形处理器(GPU)为代表的硬件技术的迅猛发展，语音识别的性能得到显著提高，从而迎来了语音信号处理技术的蓬勃发展。

目前在语音信号处理领域中不断有新的技术涌现。本书再版的目的就是将这些新的技术融合到已有的相关理论与技术中。全书以语音信号处理过程的总体框架为线索，全面阐述语音信号的前端处理技术、语音编码技术、语音识别和说话人识别技术，以及语音合成技术。相对于上一版，本书补充了基于深度学习的语音识别、基于ivector的说话人识别等本领域的前沿理论和技术，以利于读者充分了解最新的学术发展动态，并能在学术思想上受到启发。同时，书中也介绍了当前深度学习方法中广泛采用的Kaldi工具的使用技巧，以帮助读者掌握相关的实践手段。

本书涉及作者承担的多项国家自然科学基金项目的部分研究成果，在内容上既注重基本理论的系统性，又兼顾实用性和可读性，可作为高等院校计算机应用、信号与信息处理、通信与电子系统等专业及学科的高年级本科生、研究生教材，也可供该领域的科研及工程技术人员参考。

本书的第1、2、4章由韩纪庆编写，第3、6、9章由张磊编写，第5、7、8章由郑铁然编写。韩纪庆负责全书的总体安排和审定。在新版增加的内容中，郑铁然在基于深度学习的语音识别部分、陈晨在说话人识别部分、史秋莹在Kaldi工具部分的撰写上作出了重要贡献。郑贵滨为书稿的完善做了大量工作，在此表示感谢！

本书虽然是作者从事语音信号处理工作30年的理论与实践的结晶，但因作者水平有限、时间仓促，缺点和错误在所难免，敬请读者批评指正，提出宝贵意见。

作者于哈尔滨工业大学2019年1月

查看全部↓

相关推荐

图深度学习

知识图谱：概念与技术

阿里云天池大赛赛题解析――深度学习篇

语音信号处理