CORC  > 自动化研究所  > 中国科学院自动化研究所  > 毕业生  > 博士学位论文
题名基于深度强化学习的群体协同策略方法研究
作者张天乐
答辩日期2023-05
文献子类博士
关键词群体系统,协同策略,深度强化学习,图注意力网络,内在奖励,课程学习
英文摘要

群体系统源于自然界中群居生物的启发,通过个体之间的相互协作可以涌现出复杂的群体行为,具有超越个体智能限制的群体智能特性。因其分布性、自适应性、高智能性等众多优势,群体系统在城市交通、仓储物流、军事对抗等领域具有广泛的应用前景和价值。然而,在现实问题中,群体环境的复杂动态多变以及面临任务的高难度性,对群体协同决策能力提出了很高的要求。为了提升群体协同决策能力,设计有效的、高智能性的群体协同策略是其关键技术之一。近年来兴起的深度强化学习由于极强的学习和探索能力,为群体协同策略的研究提供了新的解决思路,并表现出了巨大的潜能。但现有的基于深度强化学习的协同策略方法仍然存在诸多的关键问题亟待解决,例如智能体所获信息动态多变、信用分配、采样低效、大规模智能体协同策略难以学习问题等。这些问题主要涉及群体协同策略的模型和训练方法两个方面,给协同策略学习带来了很大的困难与挑战。

本文以群体系统为研究对象,以提升群体协同决策能力为目标,针对群体协同策略在网络模型构建和训练过程中遇到的关键问题,系统地开展基于深度强化学习的群体协同策略方法研究。本文的主要工作与创新点如下:

(1) 针对群体系统中智能体所获信息动态多变问题,提出基于双层图注意力网络的群体协同策略模型方法。首先,设计观测异构图注意力神经网络处理多种类别的局部动态观测信息,提取不同类别的信息对智能体的影响关系表征,并采用注意力机制差异化处理每种关系表征,提高智能体处理动态变化观测信息的能力。其次,构建通信相关图注意力网络处理局部动态通信信息,去除智能体之间的无效通信,加强邻居智能体之间的有效通信交互,促进智能体之间的合作。仿真结果表明该方法能够有效地处理动态变化信息,提升智能体在动态环境下的协同决策能力。

(2) 针对群体协同策略训练过程中信用分配问题,提出基于同伴激励的群体协同策略训练方法。该方法主要利用智能体之间的因果影响进行彼此激励,实现高效的合作学习。首先,通过反事实推理的方法,利用联合状态-动作和个体状态值函数推断智能体之间的因果影响。其次,设计一种基于因果影响的内在奖励机制赋予智能体奖励或惩罚其他智能体行为的能力,以此实现互相激励,促进智能体之间直接交互。该内在奖励机制采用前馈神经网络构建,并利用智能体之间的因果影响进行监督训练。仿真结果表明该方法能够有效地促进智能体之间的合作学习,获得更优质的协同策略。

(3) 针对群体协同策略训练过程中采样低效问题,提出基于多种经验辅助的群体协同策略高效训练方法。该方法同时结合专家经验与交互样本经验以特定的方式塑造出个体奖励辅助并加速策略学习。首先,构建基于专家经验的单调性约束个体奖励函数,在不改变团队优化目标的条件下,高效地指导策略的学习。其次,设计基于交互样本经验的奖励分布估计器,用于预测智能体每个动作下个体奖励的期望,加速状态值函数的训练,从而加速策略的学习。仿真结果表明该方法可以极大地提高智能体协同策略的学习效率和性能。

(4) 针对大规模智能体协同策略难以学习问题,提出基于自动课程学习的大规模群体协同策略训练方法。该方法先在智能体数量较少的任务下学习,然后自动地并逐渐地增加智能体数量学习在大规模智能体任务下的协同策略,实现由简单到困难任务的学习过程。具体地,设计基于自监督学习的评估机制自动地确定下一个难度适中的训练任务,生成合适的课程式任务。构建分布式可迁移的策略网络结构,在不同任务场景中实现策略模型的迁移。采用模型重载机制实现旧任务与新任务之间的知识迁移。仿真结果表明该方法能够有效地促进大规模智能体协同策略的学习,并极大地加速其学习过程。

总体而言,本文深入分析和研究群体协同策略在网络模型构建与训练过程中遇到信息动态多变、信用分配、采样低效、大规模智能体协同策略难以学习等关键问题,提出一系列基于深度强化学习的群体协同策略方法,并在多种复杂的合作与对抗仿真任务中对所提出的方法进行了验证,取得了在理论和实际应用中具有重要价值的研究成果。

语种中文
页码158
内容类型学位论文
源URL[http://ir.ia.ac.cn/handle/173211/51966]  
专题毕业生_博士学位论文
推荐引用方式
GB/T 7714
张天乐. 基于深度强化学习的群体协同策略方法研究[D]. 2023.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace