对抗环境中基于值分解框架的多智能体协同算法研究

题名	对抗环境中基于值分解框架的多智能体协同算法研究
作者	杨光开
答辩日期	2022-05
文献子类	硕士
授予单位	中科院自动化研究所
授予地点	中科院自动化研究所
导师	黄凯奇
关键词	多智能体协同，信用分配，贝叶斯超网络，部分可观测约束，贝叶斯神经网络
学位名称	工学硕士
学位专业	模式识别与智能系统
英文摘要	多智能体协同是求解团队对抗的关键问题，近年来受到研究者们的广泛关注。研究者们结合博弈论和深度强化学习将多智能体协同任务建模为分布式部分可观测马尔可夫决策过程，并按照中心化训练分布式执行学习范式提出了一系列重要工作。其中，值分解框架是该范式中的代表性方法，为解决多智能体协同中的信用分配问题提供了重要支撑。然而，当前值分解框架仍然存在一些不足，如忽略了对信用分配策略空间的探索，缺乏信用分配不确定度表示等。此外，部分可观测约束造成的信息缺失会使得智能体对动作价值估计包含极大的不确定性，而当前值分解框架忽略了对这些不确定性的处理。这些不足导致值分解框架在很多场景中只能得到次优策略。为此，本文基于值分解框架针对多智能体协同中的信用分配和部分可观测约束这两个关键问题展开进一步研究。对于信用分配问题，本文提出了随机化信用分配方法和基于不确定度的多智能体信用分配方法；对于部分可观测约束问题，本文提出了多智能体不确定度共享方法。本文的三个研究工作可以总结为如下内容： 1. 随机化信用分配方法。在很多困难的多智能体协同任务中，智能体之间交互十分复杂，需要具备复杂的合作行为才能得到良好的联合策略。信用分配在很大程度上决定了智能体之间的协同能力，如何探索到更好的信用分配策略以避免陷入局部最优解是提升智能体协同能力的关键。当前的值分解框架以确定性的方法实现信用分配，忽略了对信用分配策略空间的探索，无法得到更好的联合策略。针对这一问题，本文提出了随机化信用分配方法，从形式上定义了信用分配策略空间。通过在训练时基于可学习的高斯分布，以一定概率采样出一个信用分配策略，利用随机性触发对信用分配策略空间的探索。其中，高斯分布的学习依赖于重参数化技巧，通过标准的随机梯度下降进行优化。同时利用熵正则化控制探索范围，避免探索过度导致学习不稳定，最终实现了对信用分配策略空间的有效探索。 2. 基于不确定度的多智能体信用分配方法。值分解框架利用混合网络将联合状态动作值函数分解为多个智能体的局部观察动作值函数以实现信用分配，在很多问题中表现良好。然而这些方法通过单一点估计得到混合网络的参数，因缺乏信用分配不确定度表示而难以有效应对环境中的随机因素，导致其只能收敛到次优策略。为此，本文从不确定度出发，对混合网络进行贝叶斯分析，提出了一种基于不确定度的多智能体信用分配方法，通过显式地量化混合网络参数的不确定度来指导信用分配。混合网络决定了信用分配，因此信用分配不确定度可以通过量化混合网络参数的不确定度来表示。同时考虑到智能体之间交互行为的复杂性，本文利用贝叶斯超网络隐式地建模混合网络参数复杂的后验分布，以避免先验地指定分布类型而陷于局部最优解。从方法上看，第一个工作形式上将混合网络参数空间定义为信用分配策略空间，从单峰高斯分布中采样一个信用分配策略等价于采样混合网络的参数，本质上是利用该高斯分布建模混合网络参数的后验分布。相比之下，本工作利用贝叶斯超网络可以建模混合网络参数复杂的后验分布，打破了先验分布类型限制，是第一个工作的深化与推广。 3. 多智能体不确定度共享方法。在部分可观测条件下，智能体无法获取环境的全局状态信息以及其他智能体的信息，只能基于局部观察决策。这种信息缺失会使得智能体对动作价值估计包含极大的不确定性。当前值分解框架通过对动作值函数单一点估计进行策略学习，忽略了对这些不确定性的处理，抑制了智能体对动作空间的探索，导致算法最终收敛到局部最优。更复杂的在于，智能体的这些不确定性并不一致，这种不一致性会极大程度阻碍智能体的协同探索。因此，本文提出了一种多智能体不确定度共享方法，利用贝叶斯神经网络显式地量化了所有智能体对动作价值估计的不确定度，并结合汤普森采样选择动作以与环境和其他智能体交互。除此之外，为了稳定训练并协调智能体的行为以提高探索效率，针对智能体之间的不确定度差异，本文进一步引入不确定度共享机制确保所有智能体对同一动作的价值估计保持相同的不确定度。
语种	中文
学科主题	模式识别
页码	90
内容类型	学位论文
源URL	[http://ir.ia.ac.cn/handle/173211/48516]
专题	中国科学院自动化研究所
推荐引用方式 GB/T 7714	杨光开. 对抗环境中基于值分解框架的多智能体协同算法研究[D]. 中科院自动化研究所. 中科院自动化研究所. 2022.

个性服务

查看访问统计

相关权益政策

暂无数据

收藏/分享

所有评论 (0)

[发表评论/异议/意见]

暂无评论

评论
权益异议
反馈意见

评注功能仅针对注册用户开放，请您登录

您对该条目有什么异议，请向管理员反馈。
内容：
Email：	*
单位:
验证码：	刷新

您在知识库使用过程中有什么好的想法或者建议可以反馈给我们。
标题：	*
内容：
Email：	*
验证码：	刷新

相关链接

CORC

联系我们