5.1. Линейно-квадратичный регулятор 133
Такое уравнение заведомо выполняется (при любых x), если
˙
P + A
T
P + P A − P BS
−1
B
T
P + R = 0, P (T ) = 0. (5.12)
Это матричное обыкновенное дифференциальное уравнение (с начальным условием при
t = T ). Оно называется дифференциальным матричным уравнением Риккати. Отме-
тим, что это уравнение нелинейно по P . Таким образом, процедура построения опти-
мального управления u в данном подходе следующая:
а) Решается уравнение (5.12) и находится P (t).
б) Управление u находится из (5.7), (5.11):
u(t) = −S
−1
B
T
P (t)x(t)
.
= K(t)x(t). (5.13)
Итак, в данном случае оказалось, что оптимальное программное управление можно
выразить в форме обратной связи по состоянию, однако матричный коэффициент уси-
ления K(t) зависит от времени t. Можно показать (см. Теорему П.5 из Приложения),
что при сделанных предположениях (пара (A, B) невырождена, R > 0, S > 0) решение
уравнения Риккати обладает следующими свойствами:
1. При любом T > 0 оно существует и единственно для всех t ∈ [0, T ];
2. P (t) ≥ 0 для любых 0 ≤ t ≤ T ;
3. Если P
T
(t) — решение уравнения при заданном T , то P
T
2
(t) < P
T
1
(t) при T
2
> T
1
;
4. При T → ∞ будет P
T
(t) → P
∞
, где (не зависящая от t) матрица P
∞
является
единственным положительно определенным решением алгебраического матрич-
ного уравнения Риккати
P A + A
T
P − P BS
−1
B
T
P + R = 0. (5.14)
С учетом свойств 3 и 4 и формулы (5.13), мы получаем, что при T = ∞ оптимальное
управление приобретает форму стационарной обратной связи
u(t) = Kx(t), K = −S
−1
B
T
P, (5.15)
где P — решение (5.14). Итак, для решения исходной задачи (5.1), (5.2), (5.4) о линейно-
квадратичном регуляторе достаточно решить алгебраическое уравнение Риккати (5.14)
и с помощью найденной матрицы P > 0 построить оптимальную обратную связь в
виде (5.15).
Оптимальность управления (5.15) может быть доказана и “в лоб”; именно, если обо-
значить его через u
∗
(t), то для любого другого (даже программного) управления u(t)
можно путем несложных преобразований получить формулу
J = x
T
0
P x
0
+
∞
Z
0
¯
¯
¯u(t) − u
∗
(t)
¯
¯
¯
2
dt.