题名 | 对抗场景中的智能体策略泛化研究 |
作者 | 陈皓
|
答辩日期 | 2022-05-25
|
文献子类 | 硕士
|
授予单位 | 中国科学院自动化研究所
|
授予地点 | 中国科学院自动化研究所
|
导师 | 黄凯奇
|
关键词 | 深度强化学习
多智能体
策略泛化
Ad-Hoc 协作
信用分配
|
学位名称 | 工学硕士
|
学位专业 | 模式识别与智能系统
|
英文摘要 | 在现实生活中,多智能体系统无处不在。强化学习是处理多智能体问题的常用方法。然而相比单智能体强化学习,多智能体强化学习面临着环境非平稳、信用分配、Ad-Hoc协作等独特的挑战。为了应对上述挑战,多智能体强化学习在近年来取得了以中心化训练分布式执行框架为代表的一系列突破性进展。在中心化训练分布式执行框架框架下,价值函数分解方法通过信用分配网络把每个智能体的本地Q值组合成全局Q值,更好地评价了每个智能体的贡献,实现了更好的合作,在很多极具挑战性的任务上取得了良好的效果。
然而,许多现实世界的场景要求智能体能够在测试时泛化到从未见过的对抗场景,也就是要求算法具有对抗场景下的策略泛化能力。然而现有的价值函数分解方法缺乏上述能力。为了提高对抗场景中智能体的策略泛化能力,本文分别从充分利用智能体的全局状态、局部观测、智能体之间的关系三个方面入手展开了策略泛化相关的研究,并分别提出了三个算法以解决对抗场景中的智能体策略泛化问题。本文的主要工作和贡献总结如下:
1. 提出了一种基于集成学习的多智能体信用分配方法,以充分利用智能体的全局状态。
首先,通过构建多重信用分配网络让不同的信用分配子网络关注到全局状态空间的不同子空间,进而学到“好而不同”的信用分配子网络,同时通过集成信用分配网络来平衡不同信用分配子网络的策略从而充分利用全局状态信息,使得算法可以关注到全局状态空间的多个子空间,避免过拟合于某个子空间,进而提升智能体的策略泛化能力。
2. 提出了一种面向Ad-Hoc协作的局部观测重建方法,以充分利用智能体的局部观测。
首先把智能体的局部观测信息分解为三个部分,然后利用注意力机制处理长度变化的输入信息,使得算法对长度变化的智能体输入不敏感,最后利用采样网络实现了局部观测抽象,使得算法充分利用不同局面中的高维状态表征。最终实现了对每个智能体的局部观测信息的重建,使得算法可以在Ad-Hoc协作场景下进行零样本泛化,进而提升智能体的策略泛化能力。
3. 提出了一种面向Ad-Hoc协作的邻域关系学习方法,以充分利用智能体之间的关系。
首先通过基于图的关系编码器将智能体之间的关系信息编码到价值分解网络中。同时,为了解决在Ad-Hoc协作中智能体数量一直在变化的问题,使用了基于注意力的本地观测抽象机制。本算法不仅可以充分利用智能体之间的拓扑结构,还可以在不重新进行训练的前提下实现在Ad-Hoc协作场景下的零样本泛化,,进而提升智能体的策略泛化能力。 |
语种 | 中文
|
页码 | 82
|
内容类型 | 学位论文
|
源URL | [http://ir.ia.ac.cn/handle/173211/48757] |
专题 | 中国科学院自动化研究所
|
推荐引用方式 GB/T 7714 |
陈皓. 对抗场景中的智能体策略泛化研究[D]. 中国科学院自动化研究所. 中国科学院自动化研究所. 2022.
|
除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。
修改评论