基于主动学习的语音转录文本标注和分类方法研究

CORC > 自动化研究所 > 中国科学院自动化研究所 > 毕业生 > 硕士学位论文

题名	基于主动学习的语音转录文本标注和分类方法研究
作者	曾杰林
答辩日期	2023-05
文献子类	硕士
关键词	主动学习，多模态学习，语音转录，场景分类
英文摘要	近年来，随着语音转录技术发展到可以商业应用的成熟水平，相关行业积累了大量的语音转录文本。这类文本在部分场景下包含极其丰富的信息，如果能将这些文本按场景进行分门别类，将会推进相关行业自然语言处理技术的发展。然而，这类文本普遍缺乏标注，且包含大量口语词汇和转录错误，现有语言模型很难准确地理解这类文本的语义。针对以上问题，本文基于主动学习对语音转录文本的标注和分类问题进行了研究，在保证模型分类性能的前提下，提出了两种不同的方法以减少所需的样本标注量。本文的主要工作如下: 第一，构建语音转录文本场景分类任务的数据集，并提出该任务的解决方案。本文开发了标注平台，收集并标注真实通话场景下的语音转录文本，构建了转录文本场景分类任务的数据集。针对该数据集特点，本文提出基于文本纠错的分类方法，模型的预处理模块和纠错模块解决了转录文本包含大量口语词汇和转录错误的问题，可以完成语音转录文本的场景分类任务。第二，提出了基于特征混合的两阶段文本主动学习算法，能大幅节省语料标注成本。针对标注工作成本高昂这一问题，本文提出了一种基于特征混合的两阶段文本主动学习算法，该方法第一阶段使用特征混合技术寻找模型当前无法识别的特征，采样包含该类特征的样本，第二阶段对这些样本进行重要性排序，挑选出对模型改善最有效的样本，迭代训练模型。本文方法能有效地减少文本标注量，降低标注成本。第三，通过引入语音模态，提出了基于语音和文本的多模态主动学习算法。本文在文本模态的基础上引入语音模态，提出了另一种针对语音转录文本场景分类任务的解决方案。本方案设计了语音特征提取方法和模态信息融合策略，扩展了模型的信息来源，提高了模型的性能。同时，方案的主动学习框架也可以在保证模型性能的前提下，降低标注成本。
语种	中文
页码	86
内容类型	学位论文
源URL	[http://ir.ia.ac.cn/handle/173211/52169]
专题	毕业生_硕士学位论文
推荐引用方式 GB/T 7714	曾杰林. 基于主动学习的语音转录文本标注和分类方法研究[D]. 2023.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们