题名面向数字图像的对抗攻击与防御算法研究
作者王雨桐
答辩日期2021-05-26
文献子类博士
授予单位中国科学院大学
授予地点中国科学院自动化研究所
导师王飞跃
关键词对抗样本 对抗攻击 防御 对抗训练 神经网络
学位专业控制理论与控制工程
英文摘要

对抗攻击和防御是深度学习与生俱来的脆弱性导致的安全性问题,自 2014 年提出以来就受到各界学者的广泛关注。面向数字图像的对抗攻击是指在原始干净数字图像上加入微小的扰动,使得原本能正确预测原始输入图像类别的神经网络,对加入扰动的图像输出错误的预测结果。而这一扰动对于人类来说几乎不可察觉,也不会误导人类做出错误预测。为了使神经网络对这些加入恶意扰动的输入仍能产生正确的输出,也由此产生了防御。

对抗攻击和防御的研究具有非常重要的理论和实际意义。理论上,对抗攻击的存在从本质上说明了神经网络还是无法像人一样学习。同时,对对抗攻击和防御的研究有利于进一步探究神经网络这一黑盒的内部学习机制。实际中,如果不能有效解决对抗攻击的问题,那么现实中任何使用深度神经网络进行预测的任务都会存在严重的安全隐患,如人脸支付、指纹解锁和自动驾驶等。

本文针对对抗攻击和防御的一些问题,展开了研究。目前对抗攻击的领域大多仅限于分类任务,对于更复杂也更实用的检测任务的攻击方法很少,且效率低、性能差、适用性差。对抗训练将对抗样本作为训练数据,通过重新训练得到具有鲁棒性的模型,但这一方法在神经网络内部缺乏可解释性。目前通用性较强的防御算法通常需要在训练阶段消耗大量的计算成本,而不需要消耗较大成本的防御方法适用性较差。

本文主要的研究内容和贡献归纳如下:

1、基于损失函数的对抗攻击。为了解决目标检测中对抗攻击存在的效率低、性能差、适用性差等问题,本文提出了一种简单、快捷、攻击性强且适用于不同网络骨架的检测器的攻击方法。针对两阶段的检测器,本文同时对第一阶段的区域生成网络和第二阶段的快速区域网络的包围框回归和分类损失函数进行攻击,得到错误的包围框和错误的分类结果。攻击过程中,本文采用投影梯度下降方法迭代地求解对抗扰动,并优化参数设置,以减少计算和存储资源。实验结果表明,相比目前最好的攻击算法,本文提出的方法在相同的目标攻击模型上取得了更好的白盒和黑盒攻击性能,白盒攻击性能提升 5%。并且使用更少的迭代次数和更小的最大扰动量,使得攻击效率提升的同时,攻击更不易察觉。

2、基于对抗训练的防御机理分析。为了对常规训练模型对于对抗攻击的脆弱性和对抗训练模型的防御原理进行研究,本文在相同干净和对抗样本的输入下,比较相同网络结构下,两种训练策略得到的模型的特征图和模型权值的差异。通过实验发现,对抗样本最终导致常规训练的模型错误分类的原因在于,在神经网络前向传播过程中输入的微小扰动不断增大,特征图中体现类别差异性的特征被不断弱化。与之不同的,对抗训练的模型之所以可以抵御对抗样本的攻击,是因为它通过稀疏的卷积核实现了阈值滤波器,强化了与分类相关的语义信息,使得在前向传播过程中一直具有很强的语义信息,而不会逐渐丢失。同时,本文发现对抗训练后的网络具有很强的稀疏性,可在不需要重新训练的情况下通过剪枝实现模型压缩,在 MNIST 上剪掉 85% 的运算量和 91% 的参数量后正确率和防御能力基本保持不变。

3、基于二值化滤波的防御。为了解决分类上已有防御算法效率低和适用性差的问题,本文提出了一种简单、快捷且适用于多种数据集的防御方法,通过基于阈值滤波的输入图像预处理方法,达到了目前最好的防御性能和训练速度平衡。受对抗训练模型在网络前向传播中进行的阈值滤波的启发,本文对输入网络的图像进行二值化滤波预处理。在二值化滤波过程中,本文提出了一种适用于不同数据集的简单有效的阈值选择策略,选取最优的阈值进行滤波防御。对于二值化图像数据集,对二值化后的输入直接使用常规训练的模型。在 MNIST 上取得了 91.2% 的防御性能,相比需要使用 n 次迭代生成的对抗样本进行对抗训练的防御方法,训练效率提升 n 倍。对于其它数据集,在二值化后的训练集上常规训练得到模型,之后对二值化后的输入使用该模型。这一防御方法极大地节省了训练所需的计算资源,同时具有较强的防御能力。

语种中文
页码110
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/44698]  
专题自动化研究所_复杂系统管理与控制国家重点实验室_先进控制与自动化团队
推荐引用方式
GB/T 7714
王雨桐. 面向数字图像的对抗攻击与防御算法研究[D]. 中国科学院自动化研究所. 中国科学院大学. 2021.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace