书籍详情
《听觉系统与鸡尾酒会问题》[52M]百度网盘|亲测有效|pdf下载
  • 听觉系统与鸡尾酒会问题

  • 出版社:机械工业出版社自营官方旗舰店
  • 出版时间:2020-12
  • 热度:10209
  • 上架时间:2024-06-30 09:08:33
  • 价格:0.0
书籍下载
书籍预览
免责声明

本站支持尊重有效期内的版权/著作权,所有的资源均来自于互联网网友分享或网盘资源,一旦发现资源涉及侵权,将立即删除。希望所有用户一同监督并反馈问题,如有侵权请联系站长或发送邮件到ebook666@outlook.com,本站将立马改正

内容介绍

内容简介

语音识别技术得益于深度学习的发展,已经走进了我们的生活。但是,复杂开放环境下的语音交互是目前语音识别技术发展中无法回避的挑战性难题。本书面向这个主题,从物理层的信号与噪声分离、神经生理层的听觉流分离以及心理认知层的听觉空间注意,进行了全方位地分析;从信号处理的技术实现、计算建模以及听障应用的角度进行了详细地阐述。

精彩书评

语音识别技术得益于深度学习的发展,已经走进了我们的生活。但是,“鸡尾酒会问题”是目前语音识别技术发展中无法回避的挑战性难题。本书从物理层的信号与噪声分离、神经生理层的听觉流分离以及心理认知层的听觉空间注意的方面,对“鸡尾酒会问题”进行了全方位分析;从信号处理的技术实现、计算建模以及听障应用的角度,对听觉系统建模进行了详细阐述。本书对促进语音技术从感知智能到认知智能的发展有着重要的参考价值。目前,涉及此类内容的中文参考书籍极缺,本书的出版弥补了这一缺憾。译者长期从事该领域的技术研究工作,全书用词准确、行文流畅,是一本难能可贵的前沿性技术书籍,特此予以推荐。

——党建武,天津大学智能与计算学部教授,天津市认知计算与应用重点实验室主任

日本北陆先端科学技术大学院大学兼职教授,中国计算机学会语音对话与听觉专业组主任


本书对近年来鸡尾酒会问题相关的听觉心理学、生理学和认知神经科学的*新研究进展进行了仔细的梳理和系统性的组织,无论从投入精力还是难度上看,这在听觉研究领域都是一项大工程,是一件可喜可贺的大事。通览全书将使你对听觉客体、选择注意、能量掩蔽、信息掩蔽等概念,以及听觉流形成和听觉场景分析计算框架等,形成一个深入全面的认识。重新审视目前语音工程中的基本模块和系统框架,将会激发出新的思想火花和有效的解决思路。

——吴玺宏,北京大学教授,信息科学技术学院副院长,智能科学系主任

言语听觉研究中心主任


听觉处理是言语认知的重要基础,对语音识别、语音增强和认知科学的发展具有重要作用,而鸡尾酒会场景的听觉处理技术是其中具有挑战性的难题。本书从信号层和神经认知层等多个不同的维度,详细阐述了听觉形成的机理和听觉场景的计算框架,以及针对鸡尾酒会问题的详细解决思路,对选择注意、信息掩蔽等现象也进行了深入分析,将能够帮助研究人员系统性地掌握听觉处理的理论与方法,对从事听觉处理技术、语音识别技术、认知科学等方面的研究具有重要的参考价值。译者在该领域有很高的造诣,对原文中的原理性描述,尤其是涉及认知科学的听觉场景计算方法,均能够以准确易懂的方式进行阐述。

——陶建华,中国科学院自动化研究所研究员,模式识别国家重点实验室副主任

中欧信息自动化应用数学联合实验室中方主任,国家杰出青年科学基金获得者

国家万人计划领军人才


精彩书摘

译 者 序

近些年,随着智能交互助手和便携式可穿戴设备的爆炸式发展,语音已经成为人类接入智能计算设备和平台的重要方式。人机语音交互在现实生活中得到非常广泛的应用,重要性日益凸显。根据国际权威调研机构科纳仕(Canalys)发布的2019年度全球智能音箱出货量报告,智能音箱出货量达1.25亿台。可以说,智能语音交互已经从过去的“不可用”发展为限定场景的“基本可用”。然而,由于干扰噪声的存在,复杂开放环境下的语音交互系统仍存在通信质量差、识别准确率低的问题,尚未达到泛场景“很好用”的程度。

该问题早在20世纪50年代初就被英国的认知科学家科林?切利(Colin Cherry)提出,并定义为“鸡尾酒会问题”(Cocktail Party Problem)。鸡尾酒会问题描述了人类听觉系统在复杂听觉场景下令人惊讶的选择性注意能力。例如,当我们身处多个说话人的鸡尾酒会场景中时,我们可以很容易地将注意力集中在某个感兴趣的说话人语音上,并忽略其他说话人语音和环境噪声的干扰。但是半个世纪以来,设计一个能够成功解析复杂场景的计算听觉系统仍是一件极具挑战性的任务。

近些年,得益于深度学习技术的快速发展,听觉感知建模方面的多个任务在实验室环境下几乎取得了全面突破。在标准测试集上,这些系统的语音识别和合成等部分核心性能指标甚至超越了人类水平,端到端方法的产生展现出了广泛的应用前景。然而,在典型实验室环境下设计和训练的计算听觉模型,在不同行业应用场景变换时,容易导致智能交互系统的性能急剧下降。这暴露出现有模型面对通用领域、开放环境自适应能力差,难以满足各种实际应用需求的紧迫问题。

突破智能感知(尤其是听觉感知系统)在复杂开放环境下的基础算法短板,打开端到端深度学习网络黑盒子,借鉴人脑工作机理,让机器能够像人一样灵活地感知复杂听觉场景,从而有效地处理鸡尾酒会问题是当下亟须解决的科学难题,值得深入研究。与视觉的外显注意过程不同,听觉是一个无明显外部指向行为的内隐注意过程,听觉感知器官接收整个听觉场景中所有声源在整个时间轴的混合信号,在复杂的听觉通路上进行信号加工。尽管隐藏在鸡尾酒会问题背后的听觉神经机制尚未明朗,但相关研究依旧取得了一些引人注目的成果。面向复杂环境的类人听觉感知系统需在深入理解人类听觉感知脑机制的基础上展开研究,其科学问题既是听觉语言认知领域的核心科学问题,也是人工智能面临的核心挑战和技术难点。随着人工智能技术的快速发展和类脑研究的多学科融合,我们相信不久的将来,设计面向复杂开放环境下达到类人听觉感知能力的听觉系统将成为可能。正是在这样的背景下,我们确定翻译这本由多名听觉心理学和神经学国际权威专家围绕“鸡尾酒会问题”整理撰写的听觉神经机理与心理行为图书。

在这本书中,将会呈现一大批科研人员在揭秘人耳听觉机制过程中的探索性工作,比如人脑的听觉客体形成和选择机制、空间线索对语音流分离的贡献,以及婴幼儿听觉发育和老年人听觉代偿,等等。本书内容覆盖全面,对我们构建类人听觉计算系统具有重要参考价值和启发意义。

本书的翻译工作在徐波老师的组织下完成,课题组多位同学和老师一同参与了翻译和校对工作,并进行了多次集体研讨,付出了大量的精力。各个章节的翻译者分别是:第1、2章(黄雅婷),第3、5章(石晶),第4、6章(李晨星),第7章(黄旭辉),第8、9章(许家铭),第10章(郝云喆)。审校者分别是:第1、2章(张鹏),第3、5章(许家铭),第4、6章(石晶),第7、10章(程翔),第8、9章(黄雅婷)。最后全部章节再次由许家铭、石晶、梁玮达和倪子懿统一校订。

最后,特别感谢机械工业出版社华章分社姚蕾和柯敬贤编辑在出版工作中付出的辛勤工作。衷心希望能够通过翻译本书为中国研究者在听觉神经科学和听觉计算科学方面的探索贡献绵薄之力,以期共同推进智能语音交互的发展,突破“鸡尾酒会问题”的瓶颈。在图书翻译和审校过程中,受学识水平所限,难免存在不妥之处,欢迎专家和读者给予批评指正,最新勘误列表会及时更新在网址:https://github.com/aispeech-lab/auditory_book。


许家铭 石晶 徐波

2020年11月,北京


前言/序言

鸡尾酒会是一个典型的复杂听觉场景:人声鼎沸,酒杯碰撞,音乐流淌等。日常生活中的其他场景,包括繁忙的办公室、拥挤的餐厅、嘈杂的教室和堵塞的城市街道,在声学上同样是复杂的。正常的听觉系统在解析这些复杂场景过程中表现出卓越的能力。然而,即使相对轻微的听力损伤也会影响这种听觉场景分析能力。

  本书内容是由2013年在美国马里兰州巴尔的摩举行的耳鼻喉科研究协会冬季会议上的主席研讨会“鸡尾酒会场景下的耳与大脑”(Ears and Brains at the Cocktail Party)发展而来的。在本书中,作者描述了听觉系统擅长将感兴趣的信号与干扰声分离的条件以及该问题不可解决的条件,这一切都是在试图理解这些成功和失败背后的神经机制。第1章整体介绍了本书内容,对鸡尾酒会问题进行了概述,并将这一问题置于听觉神经科学更广泛的探讨和分析中。第2章进一步阐述了听觉客体的关键概念,可以将其视为外部听觉声源与目标选择和注意执行单元之间的感知关联。第3章强调了较低层次下将信号与噪声进行分离的挑战,并考虑了可以克服这些挑战的机制。同时,第3章中也介绍了能量掩蔽和信息掩蔽之间的区别。接下来,第4章通过专注于混叠语音掩蔽问题来扩展信息掩蔽的概念。

  计算模型能够使鸡尾酒会问题的基本科学理解得以形式化,同时能够在解决实际工程问题中生成一些应用了生物学原理的算法。第5章考虑了面向鸡尾酒会问题建立有效计算模型的挑战。随后,第6章考虑了声源空间分离对于流分离的重要性,并回顾了空间流分离的心理物理学和生理学基础。接下来,第7章回顾了实验人类听觉神经科学领域的新发展。

  通常,婴幼儿和儿童不会出现在鸡尾酒会中。但是,在类似的听觉场景如嘈杂的游乐园或拥挤的教室中很容易在声学上变得复杂。年幼的听者只能用还未成熟的听觉系统和尚未固化的语言识别能力来理解这些场景。第8章考虑了人类面对鸡尾酒会问题时发育的多个阶段和层次。接下来,第9章认为老年人在语言技能和知识存储方面的成熟可以一定程度上补偿外周和中枢听觉系统的衰退。最后,第10章探讨听觉损伤的后果和对听力恢复(至少部分恢复)的尝试。

  在鸡尾酒会以及其他日常复杂听觉场景中的成功交流依赖于听觉系统的所有资源,包括从听觉外周的基本编码机制到高阶整合加工。本书旨在从各个层次对这些听觉资源进行探索,包括正常成年人的、早期发育的、老化的以及病变的听觉系统。

  

  约翰·C. 米德尔布鲁克斯(John C. Middlebrooks),美国加利福尼亚州欧文市

  尤纳森·Z. 西蒙(Jonathan Z. Simon),美国马里兰州学院公园市

  阿瑟·N. 波珀(Arthur N. Popper),美国马里兰州学院公园市

  理查德·R. 费伊(Richard R. Fay),美国伊利诺伊州芝加哥市