题名深度神经网络轻量化方法研究
作者许庭兵
答辩日期2019-12-09
文献子类博士
授予单位中国科学院大学
授予地点中国科学院自动化研究所
导师刘成林
关键词轻量化 二值化权重网络 紧凑块设计 表示不变性 自蒸馏学习
学位名称工学博士
学位专业计算机应用技术
英文摘要

近年来,随着神经网络技术的高速发展,深度网络模型在许多模式识别任务中已取得显著的性能提升。但高性能的深度网络也伴随着巨大的参数量和计算量,严重阻碍了模型往低能耗端上设备 (移动-手提终端、嵌入式芯片) 部署。而人们又迫切希望高性能的深度网络能有更多的应用场景,于是便促进了深度神经网络轻量化这一研究方向的发展,提出了一系列网络轻量化方法。本文针对这一研究课题,从权重二值化、结构轻量化、模型潜在能力开发等方面展开了深入研究,具体内容以及创新点归纳如下:

  1. 提出一种间隔意识权重约束的二值化权重网络优化方法。通过对已有二值化方法优化后的实数权重进行直方图分布观察,发现仍有部分权重徘徊在 [-1, +1] 之间,甚至不少停留在 0 附近,与二值化两端 {-1, +1} 有较大的间隔距离,造成大的近似误差。针对这一问题,本文设计了专有的间隔意识权重约束项,该约束能根据权重与两端的距离大小,自动产生不同强度的作用力,有效地驱动了实数权重更稳定地往二值化两端更新,从而大幅度地缩减优化后的实数权重与二值化的近似误差。在公开数据集上的实验结果表明,本方法取得了更优性能的二值化权重网络并获得接近32倍的实际模型压缩比。
  2. 提出一种基于预定义网络结构的深度网络轻量化方法。该方法不需要先预训练基础模型,而是直接从已给的基础网络架构的先验知识出发,根据不同层在网络中的特有属性,构建了相应的紧凑块进行层结构简化,最终演化出对应版本的轻量化网络架构。该方法包括三个部分:卷积层的结构加速、全连接层的参数压缩、非张量层的结构优化。本文设计不同属性及加速比的紧凑结构块(CReLU BSM BSMC ACB) 应对基础网络中的不同位置卷积层的结构加速,并设计了识别精度敏感型的结构替换规则。在 MNIST CIFAR-10 ImageNet HCCR 等四个公开的图像分类数据集上,该方法所构建的轻量化网络在识别性能不变的情况下,比对应基础网络的参数量与计算量缩减以上。尤其,在单线程 CPU 上获得 2.8ms/每张 (96×96) 图像的实际速度。
  3. 提出一种基于数据表示不变性的网络自蒸馏学习。该方法有效地避免了教师-学生或学生-学生知识蒸馏中对高耗时的教师模型或多学生网络的辅助陪同训练,直接从学生网络自身及输入数据出发,在训练过程中在线完成单模型自蒸馏学习。该方法受人类视觉感知不变性启发,用同源的不同增强样本训练单个神经网络模型获得不变性的特征表示和概率分布。在训练中引入了 MMD 约束学习高层特征表示的一致性,以及 KL 散度约束学习分支间相似的类间概率分布。在公开数据集上的实验结果表明,该方法在没有依赖任何辅助模型或网络的条件下,依然大幅度地挖掘了网络的潜在表达能力,在各种网络结构 (AlexNetVGGNet ResNet WideResNet DenseNet) 上都获得显著的识别性能提升。在少样本和小网络的场景中提升效果尤其明显。
语种中文
页码130
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/28350]  
专题自动化研究所_模式识别国家重点实验室_模式分析与学习团队
推荐引用方式
GB/T 7714
许庭兵. 深度神经网络轻量化方法研究[D]. 中国科学院自动化研究所. 中国科学院大学. 2019.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace