智能会议室环境下基于音频特征的多说话人识别与跟踪

CORC > 兰州理工大学 > 兰州理工大学

题名	智能会议室环境下基于音频特征的多说话人识别与跟踪
作者	黄开杰
答辩日期	2017
导师	曹洁
关键词	智能环境多说话人跟踪粒子滤波环形麦克风阵列 K-means CUDA
学位名称	硕士
英文摘要	通过麦克风阵列获取语音信号,从中提取出能够反应说话人位置的有效信息并不断跟踪说话人的当前位置是信号处理和目标跟踪领域中的一项重要研究内容,在智能会议系统、语音增强、机器人导航中具有广泛的应用。真实的智能环境中往往存在着多个说话人,说话人的数量和位置信息时刻都在变化,因此,研究数目可变的多说话人识别与跟踪问题对于构建可实施的智能会议系统、促进人机交互等具有更加实际的应用价值。本文的主要研究内容如下:(1)针对粒子滤波算法中重采样部分难以并行的问题,重采样导致了粒子滤波算法并行执行效率较低,因此在粒子滤波算法中引入并行策略,并在并行规约算法的基础上,结合并行前缀和的方法,克服粒子滤波算法在重采样时的粒子间依赖性,从而解决粒子滤波算法在并行实现过程中难以并行的问题。(2)针对并行粒子滤波算法在并行后的计算复杂性问题,分析了并行规约算法在GPU中内存访问模式,并行规约算法存在严重的内存访问冲突,本文利用填充寻址的并行前缀和方式,通过在每个共享数组索引中添加一个填充,实现改进共享内存数组的访问,解决并行规约在进行内存访问时存在严重的内存访问冲突问题,提高GPU硬件资源的利用率和算法实时性。(3)针对音频多目标跟踪中粒子滤波需要将量测值关联至对应目标,且每个目标需要一个粒子滤波器导致跟踪算法的计算量和所需粒子数量增加的问题,本文在并行粒子滤波算法的基础上,结合基于GPU的K均值聚类算法,实现音频多目标的跟踪,粒子滤波将多目标的状态作为整体进行更新和预测,然后利用基于GPU的K均值聚类算法对重采样后的粒子进行聚类,将同一目标的粒子归类,并利用声源区分度较高的环形阵列获取定位特征,有效解决了粒子滤波多目标跟踪中数据关联度低和跟踪精度低的问题。
语种	中文
页码	71
URL标识	查看原文
内容类型	学位论文
源URL	[http://ir.lut.edu.cn/handle/2XXMBERH/92764]
专题	兰州理工大学
作者单位	兰州理工大学
推荐引用方式 GB/T 7714	黄开杰. 智能会议室环境下基于音频特征的多说话人识别与跟踪[D]. 2017.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们