面向开放世界分类的可信与增量学习

CORC > 自动化研究所 > 中国科学院自动化研究所 > 模式识别国家重点实验室 > 模式分析与学习团队

题名	面向开放世界分类的可信与增量学习
作者	朱飞
答辩日期	2023-05-26
文献子类	博士
关键词	深度学习开放世界分类可信学习置信度估计增量学习
英文摘要	近年来，深度神经网络模型得到了长足的发展，在计算机视觉、自然语言处理等领域取得了优异的性能，在一些任务上的表现甚至超过人类水平。然而，这些优异的表现大多依赖于封闭、静态的数据集或者测试环境。在真实的开放环境中，面对动态、复杂的输入数据，深度神经网络模型存在严重不足：一方面，模型往往对其预测过度自信，既不能对已知类别给出可靠的置信度，也不能拒识未知类别或噪声模式，给实际应用带来了安全隐患；另一方面，模型无法像人类一样增量式地学习新知识，在新类别上更新模型往往导致其对旧类别知识的灾难性遗忘。这种模型要应对未知类别样本或类别集变化的问题又称为开放世界分类问题。为了提升深度神经网络模型在开放环境下的可靠性和动态自适应能力，本文研究面向开放世界分类的可信和增量学习问题，提出新的方法以及提供系统性的实验结果。本文的主要创新点和成果总结如下：一、提出基于平坦极小值的可信学习方法。可信学习的一个目的是得到可靠的置信度，支撑错分样本检测、分布外样本检测和置信度校准等任务。本文深入分析不同任务之间的关系和方法的通用性，揭示模型训练过程中存在的可靠性过拟合现象，即模型的置信度估计性能在训练过程的后期发生显著地下降。为了克服可靠性过拟合，本文提出一种基于平坦极小值的置信度估计统一方法，在训练过程中使用对抗权重扰动和随机权重平均，有效地提升多个置信度估计子任务的性能，在更加困难的场景如存在分布漂移和长尾分布的情况下，仍然能够显著增强模型的可靠性。二、提出基于类别增广的可信学习方法。作为传统数据增强技术的替代和补充，本文从开放世界分类的角度出发，提出类别增广方法，通过探索开放和未知的空间，引导模型更多地了解未知。该方法在模型训练过程中引入新类，迫使模型学习更多的“支撑”分布，提供原始分布之外的开放空间的先验知识，增加模型的不确定性知识，进而提高模型在开放环境下的置信度估计能力。此外，类别增广方法也可以帮助模型学习到泛化性和迁移性较好的特征表示，提升其在开放环境下的新类泛化能力。三、提出基于双空间校准的类别增量学习方法。类别增量学习是神经网络模型在开放环境下动态扩展和自适应的关键问题。现有基于样本回放的方法存在严重的新旧类别偏差。本文提出一种训练阶段的双空间校准方法，克服新旧类别偏差，进一步提升类别增量学习性能。一方面，在特征空间进行校准，提出偏差补偿策略，以消除新旧类别之间的特征偏差，从而保持旧类别的特征分布。另一方面，在权重空间进行校准，提出基于遗忘感知的权重扰动方法，以消除新旧类别之间的权重偏差，使得模型在新类别上更新时较好地保持旧类别知识。实验表明，所提出的双空间校准策略能显著提升已有方法的性能。四、提出基于原型增强的类别增量学习方法。已有的类别增量学习方法大多需要保存旧类别样本，存在诸多不足。本文提出基于原型增强的类别增量学习新框架。具体地，对于每个旧类别，只需要在深度特征空间保存一个特征原型。在学习新类别时候，通过显式或者隐式的原型增强生成旧类别的特征实例，与新类别一起训练分类器。与已有方法相比，该方法在学习新类别的同时能够较好地保持旧类别之间的决策面，使旧类别在模型更新之后仍然具有较好的可分性。在不保存任何旧类别样本的情况下，该方法达到与代表性样本回放类方法相当的性能，成为后续非样本回放类研究工作中的基准方法。
语种	中文
页码	142
内容类型	学位论文
源URL	[http://ir.ia.ac.cn/handle/173211/52412]
专题	自动化研究所_模式识别国家重点实验室_模式分析与学习团队
推荐引用方式 GB/T 7714	朱飞. 面向开放世界分类的可信与增量学习[D]. 2023.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们