基于ADP的非线性系统自学习最优控制方法研究

CORC > 自动化研究所 > 中国科学院自动化研究所 > 毕业生 > 硕士学位论文

题名	基于ADP的非线性系统自学习最优控制方法研究
作者	林桥
答辩日期	2017-06-25
授予单位	中国科学院研究生院
授予地点	北京
导师	刘德荣
关键词	自适应动态规划强化学习神经网络跟踪控制饱和系统
英文摘要	自适应动态规划(Adaptive dynamic programming，ADP)是最优控制领域新近兴起的一种近似最优方法，其融合了动态规划、强化学习和神经网络的思想，有效地克服了传统动态规划方法中“维数灾”的问题。在求解最优控制中的哈密顿—雅克比—贝尔曼(Hamilton-Jacobi-Bellman，HJB)方程时，ADP方法采用了函数近似结构来获得HJB方程的解，然后利用迭代方法获得最优控制策略。目前，ADP算法主要分为值迭代和策略迭代两种，本文基于这两种算法，提出了广义策略迭代ADP算法，并首次将上述算法应用于跟踪系统和带执行器饱和的被控系统上。本文的主要工作和贡献总结如下： 1、本文提出了广义策略迭代ADP算法。与传统的ADP迭代算法相比，广义策略迭代ADP算法有两个迭代指标$i$和$j$，在$i$迭代过程中，广义策略迭代ADP算法只需要更新迭代控制律而不需要求解HJB方程。而且有文献指出，几乎所有的强化学习和自适应动态规划算法都可以用广义策略迭代算法描述，更加说明了研究广义策略迭代ADP算法的普遍意义。 2、本文将广义策略迭代ADP算法应用于跟踪系统中。对于非线性离散跟踪系统，通过系统转化将跟踪系统转化为一般非线性系统，采用广义策略迭代ADP算法，得到最优跟踪控制器，利用神经网络实现跟踪系统的最优跟踪，并对迭代算法的收敛性和控制系统的稳定性进行了证明。两个仿真实验的结果表明了所提方法是有效可行的。 3、本文将广义策略迭代ADP算法应用于带执行器饱和的被控系统中。首先采用新的效用函数来保证输出的控制信号在给定范围内，进而得到新的性能指标函数，然后利用广义策略迭代ADP算法处理执行器饱和问题同时得到最优控制器，并给出相应的证明。最后进行仿真实验，通过实验结果，可以发现广义策略迭代ADP算法有效地解决了饱和系统的最优控制问题，但是如果要克服执行器饱和的情况，就需要牺牲系统达到稳定的时间。
内容类型	学位论文
源URL	[http://ir.ia.ac.cn/handle/173211/14802]
专题	毕业生_硕士学位论文
作者单位	中国科学院自动化研究所
推荐引用方式 GB/T 7714	林桥. 基于ADP的非线性系统自学习最优控制方法研究[D]. 北京. 中国科学院研究生院. 2017.