448
Так как целью управления является минимизация Q, то это условие необходимо выдер-
жать и для рассматриваемого участка. Обозначим
11
)(
1
min
−−
Ω∈
−
NN
SQ
uu
N
. Как видно из (4.43),
значение S
N-1
зависит от состояния системы в момент t
N-1
, т.е. от
1−N
y . Тогда
−−−
Ω∈
−
111
)(
1
min)(
NNN
QyS
uu
N
)
)
]
}
11111
,,min
)(
1
−−−−−
=
Ω∈
−
NNNNN
uyfyuyF
uu
N
.
В данном случае для определения S
N –1
нужно производить минимизацию Q
N –1
только по
одному переменному u
N –1
. Выполнив эту операцию, получим S
N –1
в виде функции от
1−N
y .
Эту функцию необходимо запомнить в компьютере перед переходом к последующим ста-
диям решения. Перейдя к предпоследнему участку траектории (от t
N –2
до t
N –1
), получим
()
)
)(,,
11222 NNNNNN
yuyFuyFQ ϕ++=
−−−−−
. (4.44)
Пользуясь снова принципом оптимальности, можем сказать, что лишь значение
2−N
y и
цель управления (минимизация Q
N –2
) определяют оптимальное управление u
N –2
и u
N –1
на
рассматриваемом участке траектории. Но минимум по u
N –1
и, следовательно, само оптима-
льное значение u
N –1
= u
*
N –1
уже были найдены для каждого возможного значения
1−N
y .
Это позволяет с учетом того, что первое слагаемое (4.44) не зависит от u
N –1
, а два вторых
равны Q
N –1
записать
)()
]
11222
)(
22
,minmin)(
)()(
2
1
2
−−−−−
Ω∈
−−
=
Ω∈Ω∈
−
−
−
NNNNN
uu
NN
ySuyFQyS
uuuu
N
N
N
.
С учетом (4.41) при k = N–2 получим
)
)
]
{}
22212222
,,min)(
)(
2
−−−−−−−−
=
Ω∈
−
NNNNNNNN
uyfySuyFyS
uu
N
. (4.45)
Минимизация здесь производится также по одному переменному u
N –2
. При этом опреде-
ляются оптимальное значение управления u
*
N –2
и минимум функции Q
N –2
, равный S
N –2
.
Значение S
N –2
заносится в память компьютера, а S
N –1
стирается. Как u
*
N –2
, так и S
N –2
явля-
ются функцией
2−N
y . Продолжая аналогичным образом, получим рекуррентную формулу
вида
)
)
]
{}
.,,min)(
1
)(
kNkNkNkNkNkNkNkN
uyfySuyFyS
uu
kN
−−−+−−−−−
=
Ω∈
−
(4.46)
Выражение (4.46) называется уравнением динамического программирования в дискретной
форме.
Важно отметить, что оптимальное управление u
*
N – k
минимизирует все выражение в фи-
гурной скобке (4.46), а не одно лишь первое слагаемое F
N – k
. Стратегия, в которой каждое
значение u
N – k
выбиралось бы путем оптимизации лишь соответствующего слагаемого F
N –
k
, не является оптимальной, так как не учитывает конечной цели управления.
Вычисляя по формуле (4.46) последовательно значение S
N–k
и соответствующие u
*
N – k
, по-
лучим, наконец, значение управляющего воздействия, требуемое в начальный момент
времени u
*
(0) и минимальное значение критерия эффективности S(0). На этом процедура
отыскания оптимального управления заканчивается.
Весь процесс решения без затруднений переносится на объект управления, описываемый
дифференциальным уравнением любого порядка с любым числом выходных координат
системы и управляющих воздействий. Нужно лишь заменить скаляры
y , u в выражении
(4.46) векторами
y
,
u
, а функцию f – вектор-функцией
f
.
Как показал А.М.Летов, уравнение динамического программирования может быть записа-
но и в непрерывной форме.