针对一类离散时间复杂非线性系统,在值迭代架构下提出了一种基于演化机制的评判学习控制理论和方法,其主要目的是用于解决带有折扣因子的最优控制问题。通过考虑迭代代价函数之间的差值,设定一个新颖的稳定条件用于得到具有可容许性的迭代控制策略。在迭代过程中,采用持续更新的演化策略对系统进行在线调控,使得系统状态始终维持在吸引域内并渐近稳定到平衡点,保证演化策略的有效性。另一方面,对于迭代控制策略开展可容许性分析,并讨论一系列可容许控制准则。通过这些准则可以更容易确定迭代代价函数的可容许性,进而保证闭环系统在该控制策略下的稳定性。此外,为了将最优调节问题转化成最优跟踪问题,在评判学习算法框架下构造了一个新型代价函数。相对应的效用函数定义为下一时刻跟踪误差的二次型,既可以避免传统跟踪控制算法中求解参考轨迹的稳定控制,又可以有效地消除跟踪误差。根据值迭代架构下可容许控制准则的推导,判断系统在每一步状态应采用的策略,完成相应的策略更新,并采用先进的实现框架获得非线性系统对参考轨迹的无差跟踪。
代表性成果:
[1] Wang Ding*, Wu Junlong, Ren Jin, Qiao Junfei. Online Value Iteration for Intelligent Discounted Tracking Design of Constrained Systems, IEEE Transactions on Circuits and Systems II: Express Briefs, 2022, 69(9): 3829-3833.
[2] Wang Ding*, Zhao Huiling, Zhao Mingming, Ren Jin. Novel Optimal Trajectory Tracking for Nonlinear Affine Systems with an Advanced Critic Learning Structure, Neural Networks, 2022, 154: 131-140.
[3] Wang Ding*, Qiao Junfei, Cheng Long. An Approximate Neuro-Optimal Solution of Discounted Guaranteed Cost Control Design, IEEE Transactions on Cybernetics, 2022, 52(1): 77-86.