CORC  > 自动化研究所  > 中国科学院自动化研究所
题名面向低功耗的语音增强与分离算法研究
作者黄雅婷
答辩日期2022-08-16
文献子类博士
授予单位中国科学院自动化研究所
授予地点中国科学院自动化研究所
导师徐波
关键词语音增强与分离 脉冲神经网络 模型压缩 听觉感知恢复
学位名称工学博士
学位专业模式识别与智能系统
英文摘要

智能语音处理成为人机交互过程中重要的一环,被用到越来越多的智能设备中。语音增强与分离算法通常作为智能语音设备中的前端模块,增强和分离出目标语音,以提升自动语音识别、说话人识别等后端模块的识别性能。由于其实用价值,语音增强与分离算法被广泛地研究,并且是语音信号处理领域中的一个重要研究课题。语音增强与分离算法最初源于对鸡尾酒会问题的研究。回顾语音增强与分离算法的发展历程,当今主流研究逐渐往基于深度神经网络的语音增强与分离算法发展。尽管基于深度神经网络的语音增强与分离算法在标准数据集上取得了卓越的性能,由于其模型复杂性和计算量,部署到资源受限、功耗受限的端侧设备上仍面临挑战。与智能机器相比,动物的听觉系统往往能以更低的功耗,较为高效鲁棒地处理复杂的听觉场景。本文将围绕面向鸡尾酒会问题的听觉场景,从更节能、更轻量化、更鲁棒的角度出发,探索和研究面向低功耗的语音增强与分离算法。本文的主要贡献包括以下几点:

1. 本文提出一种基于脉冲编码与序列学习的语音增强与分离算法。脉冲神经网络是第三代神经网络,可以学习输入刺激的精确脉冲序列。脉冲神经网络的事件驱动特性使得其部署在专用芯片上时具有低功耗、高效率的特点。同时语音信号富含丰富的时空结构,因此脉冲神经网络是学习语音的时空结构的一个自然选择。本文首次将有监督的脉冲神经网络应用到语音增强与分离算法建模中。为了将语音刺激转换成脉冲序列,受神经科学中发现的编码方式的启发,我们提出两种时序编码方式,即时序-频率编码和时序-群体编码。我们进一步将动量和 Nesterov 加速梯度引入到远程监督方法(Remote Supervised Method, ReSuMe)中,分别得到 ReSuMe-M 和 ReSuMe-NAG,提高脉冲神经网络训练收敛的速度和性能。实验结果表明,脉冲神经网络在建模语音增强与分离任务上具有一定的潜力。

2. 本文提出一种基于知识蒸馏和量化训练的语音增强与分离算法。虽然上一个工作的实验结果显示脉冲神经网络在应用到语音增强与分离任务时具有一定的潜力,但是由于缺乏有效的优化训练算法去提高脉冲神经网络的准确率,脉冲神经网络的性能有待提升。降低功耗的另一个思路是运用模型压缩技术对复杂模型进行压缩,减小参数量和模型尺度,降低计算成本。由此,本文利用模型压缩技术并提出蒸馏敏感的量化(Distillation-Aware Quantization, DAQ)算法对基于声纹辅助的深度神经语音增强与分离模型进行压缩。 DAQ 算法结合量化技术和知识蒸馏,将模型的权重应用量化函数做逐层非均匀量化,将激活应用最小-最大线性量化进行 8 比特量化。为了进一步提升低精度模型的性能,我们引入知识蒸馏,将全精度模型当作教师模型,将低精度模型当作学生模型。 DAQ 能够以端到端的方式进行训练。我们在之前提出的语音增强与分离模型 WASE 上使用 DAQ,并提出用 DAQ 训练的低精度版本 TinyWASE。 WSJ0-2mix 的结果显示我们提出的方法在权重量化到 3 比特的情况下也能实现和全精度模型相媲美的性能,实现了 8.97 的压缩比和 2.15MB 的模型尺寸。实验结果还显示我们提出的 TinyWASE 可以和其他模型压缩算法结合,比如参数共享,通过牺牲一定的性能实现达到 23.81 的压缩比。

3. 基于上一个工作,本文进行进一步拓展,融合声纹线索和视觉线索,提出一种基于组通信的多模态多通道的轻量化语音增强与分离算法。我们提出 LiMuSE(Lightweight Multi-modal Speaker Extraction)。 LiMuSE 将组通信(Group Communication)模块引入到时序卷积网络(Temporal Convolutional Networks, TCN)组成基于组通信的 TCN 模块。基于组通信的 TCN 网络被用在上下文编译码器,沿着时间维度将长语音序列压缩成更短的时序序列;同时被用在听觉模块和融合模块中,沿着特征维度压缩模型以减轻主干网络的建模负担。LiMuSE 进一步利用量化技术压缩模型尺寸。在 GRID 数据集上的实验结果表明,引入组通信和上下文编译码器到多模态模型中能够以更少的参数和更小的模型复杂度实现和全精度模型媲美甚至略优的性能。

4. 尽管人类听觉系统能同时从混合语音中提取出目标信号并且恢复受损或者缺失的部分,目前主流语音增强与分离算法一般仅关注目标语音的增强与分离,而无法恢复受损或缺失的部分。本文将再进一步,研究听觉感知恢复的计算建模及其轻量化优化。本文提出一种基于听觉感知恢复的语音增强与分离算法,其目标是恢复含有噪声含有缺失的混合语音中的目标语音。我们提出 HCRN(Hourglass-shaped Convolutional Recurrent Networks)去抑制背景噪音的同时恢复目标语音中缺失的部分。为了进一步提升算法的性能,我们提出时频域损失。实验的定量分析和定性分析的结果表明,我们提出的用时频域损失训练的 HCRN具有抑制背景噪音、根据不可靠的上下文识别和恢复混合语音中显著信号的缺失部分的能力。在此基础上,本文进一步从轻量化设计的角度对 HCRN 进行优化,提出 HTCN(Hourglass-shaped Temporal Convolutional Networks),在缩减模型参数量以及计算量的同时,获得和 HCRN 相媲美的性能。

语种中文
页码126
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/49721]  
专题中国科学院自动化研究所
推荐引用方式
GB/T 7714
黄雅婷. 面向低功耗的语音增强与分离算法研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2022.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace