CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 硕士学位论文
题名基于主动学习的语音转录文本标注和分类方法研究
作者曾杰林
答辩日期2023-05
文献子类硕士
关键词主动学习,多模态学习,语音转录,场景分类
英文摘要

近年来,随着语音转录技术发展到可以商业应用的成熟水平,相关行业积累 了大量的语音转录文本。这类文本在部分场景下包含极其丰富的信息,如果能 将这些文本按场景进行分门别类,将会推进相关行业自然语言处理技术的发展。 然而,这类文本普遍缺乏标注,且包含大量口语词汇和转录错误,现有语言模型 很难准确地理解这类文本的语义。针对以上问题,本文基于主动学习对语音转录 文本的标注和分类问题进行了研究,在保证模型分类性能的前提下,提出了两种 不同的方法以减少所需的样本标注量。

本文的主要工作如下:

第一,构建语音转录文本场景分类任务的数据集,并提出该任务的解决方 案。本文开发了标注平台,收集并标注真实通话场景下的语音转录文本,构建了 转录文本场景分类任务的数据集。针对该数据集特点,本文提出基于文本纠错的 分类方法,模型的预处理模块和纠错模块解决了转录文本包含大量口语词汇和 转录错误的问题,可以完成语音转录文本的场景分类任务。

第二,提出了基于特征混合的两阶段文本主动学习算法,能大幅节省语料标 注成本。针对标注工作成本高昂这一问题,本文提出了一种基于特征混合的两阶 段文本主动学习算法,该方法第一阶段使用特征混合技术寻找模型当前无法识 别的特征,采样包含该类特征的样本,第二阶段对这些样本进行重要性排序,挑 选出对模型改善最有效的样本,迭代训练模型。本文方法能有效地减少文本标注 量,降低标注成本。

第三,通过引入语音模态,提出了基于语音和文本的多模态主动学习算法。 本文在文本模态的基础上引入语音模态,提出了另一种针对语音转录文本场景 分类任务的解决方案。本方案设计了语音特征提取方法和模态信息融合策略,扩 展了模型的信息来源,提高了模型的性能。同时,方案的主动学习框架也可以在 保证模型性能的前提下,降低标注成本。

语种中文
页码86
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/52169]  
专题毕业生_硕士学位论文
推荐引用方式
GB/T 7714
曾杰林. 基于主动学习的语音转录文本标注和分类方法研究[D]. 2023.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace