基于值分解优化的多智能体深度强化学习方法研究

CORC > 自动化研究所 > 中国科学院自动化研究所 > 复杂系统管理与控制国家重点实验室 > 智能化团队

题名	基于值分解优化的多智能体深度强化学习方法研究
作者	王凌霄
答辩日期	2021-05-26
文献子类	硕士
授予单位	中国科学院自动化研究所
授予地点	中国科学院自动化研究所
导师	魏庆来
关键词	深度强化学习多智能体系统价值函数分解算法图神经网络
学位名称	工程硕士
学位专业	控制工程
英文摘要	随着深度学习算法的实际效果和上下游软硬件的综合水平的大幅提升，深度学习技术开始被运用在信息科学各个领域的交叉性前沿研究中。最近三年来，深度学习方法已经在多智能体强化学习领域中成功地进行了许多探索，多智能体深度强化学习已经成为人工智能领域最近几年以来发展最为迅速的子方向之一。多智能体深度强化学习方向上的算法可以依据其背景设计原理分为几个技术路线大类，其中主要的技术路线包括基于同步通信的方法、基于价值函数分解的方法等等。本文针对多主体、连续时间、即时决策和不稳定通信环境下存在的新型问题，讨论了现有几种算法的应用局限和研究潜力，结合强化学习、图神经网络等领域的最新研究成果，提出了基于价值函数分解的多智能体深度强化学习算法的改进方法。本文提出的改进方法有两个主要创新点。首先，针对不完全信息高频决策环境的特点，本文在价值函数分解算法的执行阶段引入了异步历史观测数据，既减少了同步通信机制所引入的高额信道负担，又丰富了智能体在当前时刻的进行决策所需的外部参考数据，该改进算法实现了多智能体在执行阶段的决策性能与计算开销的平衡，并形成了一种介于经典价值函数分解算法和经典同步通信算法之间的泛化算法型式。其次，本文在价值函数分解算法的学习阶段引入了隐式图关系的挖掘，使用注意力机制计算智能体之间的权重系数并得到对应的隐式图邻接矩阵，并在隐式图上进行多智能体动作价值向量的图卷积运算，该改进算法使得智能体之间的关系可以在不借助专家经验的情况下自动生成，并且将图神经网络计算模块引入到动作价值函数的聚合过程中。本文在星际争霸多智能体挑战环境的不同任务下对上述算法改进进行测试，并与经典的多智能体深度强化学习方法进行比较，通过实验发现本文提出的算法在实验环境下表现出优于经典算法的效果。
语种	中文
页码	100
内容类型	学位论文
源URL	[http://ir.ia.ac.cn/handle/173211/44697]
专题	自动化研究所_复杂系统管理与控制国家重点实验室_智能化团队
推荐引用方式 GB/T 7714	王凌霄. 基于值分解优化的多智能体深度强化学习方法研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2021.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们