近日,上海交通大学密西根学院教师邵磊及合作团队在国际知名学术期刊《Science Advances》上发表题为“A wave-confining metasphere beamforming acoustic sensor for superior human-machine voice interaction”(超球面波束成形声音传感器实现卓越人机语音交互)的最新科研成果论文。研究团队率先设计出一种声学超球面声音传感器,展示了全向拾音、声压放大、声源追踪、高性能音频克隆和语音识别等多项功能,即使在强背景噪声环境中也能定位和识别相邻角度的声源,从而实现了卓越的人机声交互性能。

“声超球⾯,逖听远闻”

对话不仅是人际交流最常见和最轻松的方式,也是智能人机交互技术的重要发展方向。这一技术需要同时具有超高信噪比和灵敏度的声学传感器,并能够在嘈杂环境中精确识别、定位和追踪多个语音。目前,商用麦克风和新兴的超高灵敏度薄膜传感器都无法解决声波在空间内快速耗散的根本问题,各种智能音箱和会议室全向麦克风都时常难以有效拾音。而声学超材料拥有调制和操纵声波的无限可能性,已被证明能用于声波的放大和分离。然而,如何用声学超材料同时实现人声频率范围内的超高信噪比和灵敏度参数和多个声源的被动放大、分离和定位,并实现实际应用场景中的使用,是语音传感和交互识别领域的重要挑战。

声学超球面的设计概念和物理机制

为此,邵磊课题组提出了一种“声学超球面(acoustic metasphere)”的概念,并构建了近似的正十二面体声学超材料及缺陷腔结构来验证其声振特性。此策略基于局域共振原理,将声波约束在每个正五边形中心的缺陷位置,被动的引导并放大声波,可以获得两倍于发射端的声场强度,在远距离感知场景下有效弥补了声波在空间的快速大幅耗散。因此,利用缺陷腔内低噪的压电转换性能,研究团队提出的传感器同时实现了优异的信噪比(72 dB)和卓越的灵敏度(137 mVpp/Pa or -26.3 dBV)。基于此,研究团队实现了优异的音频克隆、身份验证和语音识别等多种人机交互功能。

研究团队拍摄的视频展示了多个声源的实时定位和追踪,并展示了线上会议协助和工厂巡逻搜救等多个应用场景下的强大功能。声学超球面系统不仅成功识别了空间内相邻角度同时发声的多位用户,还可以追踪被强烈背景噪音淹没的人声。该项研究利用物理智能构建了多功能空间全向声学超球面传感器,结合多种智能算法来优化系统功能,实现了多场景的卓越人机语音交互系统,为发展新一代智能机器人听觉系统和实现更好的人机语音交互开辟了新道路。

邵磊和上海交通大学机动学院教授张文明是论文的共同通讯作者,共同第一作者是机动学院博士生马珂婧和密院博士生陈虎越,其他作者还包括原密院硕士生郝翔翎等。研究工作受到了国家自然科学基金重点项目、青年基金项目和上海市“科技创新行动计划”港澳台科技合作项目的资助。

参考文献:https://www.science.org/doi/10.1126/sciadv.adc9230

教师名片

邵磊,上海交通大学密西根学院副教授,博士生导师。2009年在上海交通大学本科毕业,2014年在美国密西根大学获得博士学位,2014年至2018年在美国国家标准技术研究院从事博士后研究工作。2018年加入密西根学院,主要从事微机电系统(MEMS)器件和芯片、传感器、驱动器等方面的研究。