Abstract:Policy iteration and value iteration are two main iterative adaptive dynamic programming frameworks for solving optimal control problems. Policy iteration converges fast while requiring an initial stabilizing control policy, which is a strict constraint in practice. Value iteration avoids the requirement of initial admissible control policy while converging much slowly. This paper tries to utilize the advantages of policy iteration and value iteration, and avoids their drawbacks at the same time. Therefore, a multi-step heuristic dynamic programming (MsHDP) method is developed for solving the optimal control problem of nonlinear discrete-time systems. MsHDP speeds up value iteration and avoids the requirement of initial admissible control policy in policy iteration at the same time. The convergence theory of MsHDP is established by proving that it converges to the solution of the Bellman equation. For implementation purpose, the actor-critic neural network (NN) structure is developed. The critic NN is employed to estimate the value function and its NN weight vector is computed with a least-square scheme. The actor NN is used to estimate the control policy and a gradient descent method is proposed for updating its NN weight vector. According to the comparative simulation studies on two examples, the effectiveness and advantages of MsHDP are verified.

Bias-Policy Iteration-Based Adaptive Dynamic Programming for Optimal Control of Discrete-Time Nonlinear Systems

Bias-policy iteration based adaptive dynamic programming for unknown continuous-time linear systems

Model-free Adaptive Dynamic Programming for Optimal Control of Discrete-time Affine Nonlinear System

Bias-policy iteration based optimal control for unknown continuous-time linear periodic systems

Iterative design of suboptimal feedback control for bilinear parabolic PDE systems

Multi-step Heuristic Dynamic Programming for Optimal Control of Nonlinear Discrete-Time Systems.

Modified λ-Policy Iteration Based Adaptive Dynamic Programming for Unknown Discrete-Time Linear Systems

Value Iteration Adaptive Dynamic Programming for Optimal Control of Discrete-Time Nonlinear Systems

Modified $\lambda$-Policy Iteration Based Adaptive Dynamic Programming for Unknown Discrete-Time Linear Systems

Modified general policy iteration based adaptive dynamic programming for unknown discrete‐time linear systems

Twin Deterministic Policy Gradient Adaptive Dynamic Programming for Optimal Control of Affine Nonlinear Discrete-time Systems

Adaptive Dynamic Programming for Nonaffine Nonlinear Optimal Control Problem with State Constraints

Policy-Iteration-Based Finite-Horizon Approximate Dynamic Programming for Continuous-Time Nonlinear Optimal Control

Policy Gradient Adaptive Dynamic Programming for Model-Free Multi-Objective Optimal Control

Adaptive dynamic programming for optimal control of discrete‐time nonlinear system with state constraints based on control barrier function

Policy Iteration Based Feedback Control

On policy iteration‐based discounted optimal control

Constrained Online Optimal Control for Continuous-Time Nonlinear Systems Using Neuro-Dynamic Programming

A New Approach to Finite-Horizon Optimal Control for Discrete-Time Affine Nonlinear Systems via a Pseudolinear Method

H<inf>&#x221E;</inf> Control of Unknown Discrete-Time Nonlinear Systems with Control Constraints Using Adaptive Dynamic Programming

Data-driven Optimal Tracking Control of Discrete-Time Multi-Agent Systems with Two-Stage Policy Iteration Algorithm.