题名深度卷积神经网络低比特加速软硬件协同设计研究
作者李钢
答辩日期2021-08-15
文献子类博士
授予单位中国科学院自动化研究所
授予地点中国科学院自动化研究所
导师程健
关键词深度神经网络 协同设计 低比特 加速器 人工智能芯片
学位专业模式识别与智能系统
英文摘要

近年来,以深度学习为代表的人工智能技术取得了飞速进步,越来越多的智
能应用走入寻常百姓家。深度学习的成功主要得益于近十几年来算法、算力和数
据的多方面突破。其中,算法和算力的不断革新使得人工智能未来的发展值得期
待。
深度神经网络是基于大数据的深度学习技术中的核心组件。由于对算法精
度的持续要求和高性能计算设备的广泛使用,早期的深度神经网络普遍具有极
高的计算和存储复杂度,大部分算法只能部署在云端。而随着智能技术的普及,
边缘计算的需求越来越强烈,如何在算力受限的设备上高效部署神经网络模型
正成为学术界和工业界共同关注的问题。通常的解决思路大致可分为三类,一类
是从算法角度出发,设计紧凑的网络模型或者采用压缩算法将复杂模型压缩成
精简的模型,使之对硬件资源需求更小;第二类是从硬件角度出发,针对神经网
络模型设计专门的硬件架构,使之计算更高效;而第三类是把算法和硬件协同
设计,由于同时考虑到网络模型和硬件架构的特点,相比前两类方法往往效率
更高。近年来,以定点量化为代表的模型压缩方法由于具有良好的硬件友好性,
正成为软硬件协同设计的主流方法之一。
本文针对深度卷积神经网络的硬件加速问题,以低比特量化为主线,从软硬
协同设计的角度分别对深度卷积神经网络的算法设计、硬件架构设计和软硬件
系统设计三个方面进行深入研究。研究内容以及主要创新点归纳如下:
• 提出了一种硬件友好的深度卷积网络低比特量化方法。为了降低原始浮
点计算在硬件上的面积、能耗开销,大多数已有的定点量化技术采用均匀量化方
法,将浮点乘法和加法转化为对应的整数操作。虽然这类量化显示了硬件上的
有效性,但是较高位宽的乘法和加法使得计算单元的面积、能耗开销仍然十分可
观。为此,本文提出了硬件友好的独热(one-hot)量化。其基本出发点是将神经
网络中的权重和激活全部表示成幂次方形式,进而整数乘法可以转化为更低比
特的加法和简单的译码。与此同时,通过one-hot 量化,权重和激活的位宽大幅
度降低,使得片上的存储开销降低。
• 提出了一种针对混合精度深度卷积网络的自适应比特序列化计算架构。混合精度量化是定点量化方向的最新进展,相比于传统的单一数值精度量化,混合
精度量化将网络的权重和激活表示成不同的数值精度,在保持模型准确度的同
时具有更低的平均数值位宽。然而这种数值精度上的多样性给定制化硬件加速
器设计提出了挑战,常规的为单一精度设计的加速器已经无法进一步挖掘混合
精度在性能上的优势。为此,我们针对混合精度深度卷积网络提出了自适应比特
序列化计算架构,能够在运行时动态配置比特序列化计算的模式,最大限度提升
计算效率。实验结果表明本文所提出的计算架构在性能和能效上明显优于已有
工作。
• 设计并实现了一个端到端的基于低比特量化技术的人工智能芯片系统。针
对图像分类、目标检测等计算机视觉任务,本文提出了一个基于算法硬件协同设
计的芯片系统。算法层面,一方面采用了幂次方定点量化将整数乘法转换为硬件
友好的移位操作。另一方面,为了实现大尺寸输入在有限片上存储下的高效部
署,本工作提出了硬件友好的分块卷积,能够将大网络模型拆分成独立的子网
络,实现可忽略准确度损失下的高效计算。计算架构层面,本工作提出了一种异
构多核计算单元阵列,能够实现神经网络的多层融合计算。在28nm 上的实现和
验证结果表明,该芯片能达到最高6TOPS/W 的能效比。

语种中文
页码94
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/47033]  
专题自动化研究所_类脑智能研究中心
推荐引用方式
GB/T 7714
李钢. 深度卷积神经网络低比特加速软硬件协同设计研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2021.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace