Власов К.П. Теория автоматического управления

443

дет

0)1)(1(1)(

2

1

2

1

2

1

=−+=−= ppppH

γγγ

.

Исходя из требований устойчивости при нахождении экстремума учитываем корни только

первого сомножителя. Тогда

2/1

11

−

−=

γ

p и уравнение экстремали имеет вид:

tp

eCty

1

)(

1

⋅= , (4.22)

где С – постоянная интегрирования.

Заметим, что уравнение экстремали соответствует решению ДУ вида 0

=

+

yyT

&

с

характеристическим уравнением 01

=

+

Tp , где T – постоянная времени. Таким образом

экстремалью функционала Q

1

является экспонента с постоянной времени

1/2

1

T

γ

=

.

Уравнение экстремали функционала Q

2

получим, положив в (4.22)

1

γ

=0. Тогда, приняв

начальное значение координаты y(0)=1, можно записать

С

∀

t< 0

y

2

(t) =

0

∀

t≥ 0.

Так как объект управления описывается дифференциальным уравнением второго порядка

переходные процессы минимизирующие функционалы Q

1

и Q

2

физически нереализуемы.

Поэтому можно лишь определить величины изменяемых параметров системы (в нашем

случае k

oc

), при которых переходной процесс максимально приближался бы к оптималь-

ному. Для решения этой задачи запишем дифференциальное уравнение системы. Имеем

)(1

)(

pW

р

+

=

, где

p

k

kkTp

k

pW

ос

р

2

1

)( ⋅

++

= .

Тогда дифференциальное уравнение системы примет вид:

ukykykkyT

oooc

=

+

++

&&&

)1(

1

, где k

o

=k

1

k

2

.

Пусть входной сигнал меняется скачком от u до 0, тогда, полагая

1)0( =y ; 0)0(

=

y

&

и обо-

значив

ooc

kkka /)1(

11

+= и

o

kTa /

0

= , получим:

0

10

=++ yyaya

&&&

. (4.23)

Определим значения Q

1

и Q

2

через коэффициенты дифференциального уравнения. Для

этого умножим (4.23) поочередно на y и

y

&

. Тогда получим

⎪

⎭

⎪

⎬

⎫

=++

0

2

10

2

10

yyyayya

&&&&&

&&&

. (4.24)

Вычислим следующие интегралы, учтя при этом, что y(∞)=

y

&

(∞)=0

;

0

111100

2

0

∫∫

∞

−=−−=−= QQyydtyyydtyy

&&&&&

;

2

1

2

0

2

0

−=−==

∫∫

∞

y

ydydtyy

&

0

2

0

0.

2

y

yydt ydy

∞

=

=− =

∫∫

&

&&& & &

Тогда после интегрирования системы уравнений (4.24) получим:

1

011 2

111

0

2

1

0

2

a

aQ Q

aQ

⎫

−

−+ =

⎪

⎬

⎪

−=

⎪

⎭

.

Отсюда

)(

2

1

22

;

2

1

0

2

1

11

0

1

2

1

11

aa

a

Q

a

Q +=+== . Тогда

444

)1(2

)()1(

)(

2

1

)(

10

2

010

2

1

10

2

1

1112

0

2

1

2

1

oc

kkk

kakk

aa

a

QQdtyyQ

+

+++

=++=+=+=

∫

∞

γ

γγγ

&

.

Для нахождения

1

oc

k , соответствующего Q

1

=min, запишем:

.0

)1(

)(

1

2

1

10

1

=

+

−=

∂

oc

o

ooc

kk

ka

kk

Q

γ

Отсюда оптимальное значение

2

oc

k

:

).1(

1

100

1

−+=

γ

ak

k

oc

Коэффициент k

oc

, соответствующий Q

2

=min (при

1

γ

=0) , будет

).1(

1

00

1

2

−= ak

k

oc

Пусть T=0.5c; k

1

=200; k

2

=0.25 1/c; k

0

=

21

kk

⋅

=50 1/c; 01.0

50

5.0

0

===

k

T

a c

2

.

Оценку Q

1

находим, задаваясь

1

γ

. Потребуем, чтобы переходной процесс приближался к

экспоненте с постоянной времени 0,1 с, тогда

1

γ

=0,01 с

2

, а

.03.0)102.050(

200

1

=−=

oc

k

Для оценки Q

2

получим

.02.0)101.050(

200

1

2

=−=

oc

k

Качество переходного процесса определяется коэффициентом демпфирования ξ, который

в нашем случае равен

Tk

kk

a

oc

0

1

0

1

2

1

2

+

==

ξ

.

Подставляя числовые значения k

oc

, имеем для первого случая ξ

1

=0,7, а для второго ξ

1

=0,5.

Перерегулирование при ξ=0,7 не превышает 5%, а при ξ=0,5 достигает 20 %, т.е. выбор k

oc

по критерию Q

1

дает меньшее перерегулиро-

вание, чем по Q

2

. Дальнейшее увеличение

1

γ

еще больше увеличивает k

oc1

и, следовательно,

ξ. При этом уменьшается перерегулирование,

но увеличивается время переходного процесса

(рис.4.7).

Таким образом, при заданной структуре объ-

екта мы не можем реализовать оптимальный

переходной процесс в чистом виде, миними-

зирующий критерий Q

1

и Q

2

, при любых k

oc

.

Это обусловленно инерционностью объекта

управления, что оставляет возможность реа-

лизации процесса лишь близкого к оптималь-

ному.

* * *

Пример 4.4. Найти оптимальную по быстродействию кривую изменения частоты враще-

ния двигателя постоянного тока независимого возбуждения при отработке заданного пе-

ремещения

∫

ω=ϕ

T

dt

0

и ограничениях, наложенных на нагрев двигателя:

∫

≤=

T

AdtRiq

0

2

.

445

Здесь

T

– время перемещения двигателя;

ω

– частота вращения; A – допустимые тепло-

вые потери;

i и

R

– ток и сопротивление якоря.

Решение. Математически поставленная задача формулируется следующим обра-

зом: найти экстремаль функционала

∫

==

T

dtQ

0

1

min

(4.25)

при наличии уравнений связи в виде

∫

≤=

T

AdtRiQ

0

2

;

∫

ϕ=ω=

T

dtQ

0

03

. (4.26)

Таким образом, имеем задачу на условный экстремум, для решения которой составим

вспомогательную функцию

ωλ+λ+=λ+λ+=

3

2

23322

*

1 RiFFFF . (4.27)

Запишем уравнение движения двигателя при неизменном потоке возбуждения

const

=

Ф и

отсутствии момента сопротивления

0

c

=

M :

iKM

dt

d

J

M

==

ω

д

;

ω

&

M

K

J

i = . (4.28)

Здесь

J – момент инерции, приведенный к валу двигателя;

д

M – момент двигателя;

ФCK

MM

= ;

M

C – электромашинная постоянная.

Тогда (4.27) можно записать в виде:

ωλωλ

3

2

*

1 ++=

&

KF ,

где

22

/

M

KRJK = .

Экстремаль функционала (4.25) с учетом (4.26) находят, решая уравнение Эйлера

02

23

**

=−=

∂

−

∂

ωλλ

ωω

&&

&

K

F

dt

dF

Откуда

;

2

1

2

02

3

KK

λλ

λ

ω

==

&&

(4.29)

где

320

/ λλ=λ .

Интегрируя (4.29), найдем уравнение экстремалей

21

2

0

1

0

4

1

ω;

2

1

ω CtCt

K

Ct

K

++=+=

λλ

&

. (4.30)

С учетом уравнения (4.28) запишем

1

0

2

ω C

K

J

t

KK

J

K

J

i

MMM

+==

λ

&

. (4.31)

Таким образом, оптимальное в смысле быстродействия управление двигателем при вы-

полнении условий (4.26) осуществимо при линейном законе изменения тока и изменении

ω по параболическому закону.

Постоянные интегрирования

1

C и

2

C и постоянный множитель

0

λ

определяют из гранич-

ных условий

446

00

)(;)0(;0)(;0)0( iTiiiT

−

=

ω

=ω , (4.32)

соответствующих началу разгона и окончанию торможения. Подставив (4.32) в (4.30) и

(4.31) окончательно запишем

M

KKi

JT

C

J

K

iC

0

0201

4

;0;

−=λ==

. (4.33)

Значения

0

i и

T

найдем с помощью уравнений связи (4.26) и соотношений (4.30)-(4.33).

После интегрирования получим

∫

===

T

A

TRi

dtRiq

0

2

0

2

3

; (4.34)

J

TiK

dt

M

T

6

2

0

=ω=ϕ

∫

. (4.35)

Решив совместно (4.34) и (4.35), определим

2

0

3

2

0

6

;

12

TK

J

i

AK

RJ

T

MM

ϕ

=

ϕ

=

. (4.36)

Подставив (4.33) с учетом (4.36) в (4.30) и (4.31), найдем в окончательном виде закон из-

менения тока

)(ti и скорости )(t

ω

при оптимальном режиме в функции времени (рис.4.8).

Так как управление двигателем постоянного тока обычно производится изменением на-

пряжения на зажимах якоря

я

U , то воспользовавшись вторым законом Кирхгофа для

якорной цепи двигателя

ω

+

=

e

KRiU

я

(4.37)

и уравнениями

)(ti и )(t

ω

, можно найти зависимость )(

я

tU . Так как зависимость )(ti ли-

нейная, а

)(t

ω

параболическая, то )(

я

tU тоже будет

изменяться по параболе (рис.4.8).

Если управлять двигателем, контролируя выходные

координаты

ϕ

и

ω

, то, исключив из уравнений )(ti и

)(t

ω

переменную t , получим зависимость )(

ω

i , под-

ставив которую в (4.37), найдем зависимость

)(

я

ω

U .

Кроме того, для учета знака

i необходимо также про-

изводить непрерывное измерение угла поворота ϕ.

Окончательно

ω+ϕ−ϕω−=ϕω

e

KBBU )2sign()2(),(

021я

,

(4.38)

где

0

1

ϕ

=

RA

B

;

3/1

2

0

2

4

9

⎟

⎠

⎞

⎜

⎝

⎛

ϕ

=

RJ

AK

B

M

.

Как вытекает из (4.38), для реализации оптимального алгоритма требуется нели-

нейный регулятор.

Динамическое программирование

В основе метода динамического программирования лежит принцип оптимальности, сфор-

мулированный Р. Беллманом для широкого круга задач. Согласно этому принципу, опти-

мальная стратегия управления не зависит от «предыстории» системы, а определяется ее

состоянием в настоящий момент времени и целью управления.

447

Поясним метод динамического программирования на простом примере управления объек-

том, движение которого характеризуется уравнением первого порядка

),(

0

uyf

dt

dy

= , (4.39)

где

u и y – единственные управление и координата системы, причем на

u

наложено ог-

раничение в виде

)(uu Ω∈ . Предполагается, что при этом координата y также не выходит

за границы допустимых значений.

Пусть заданы граничные условия

T

yTyyy

=

)(;)0(

0

и требуется минимизировать функ-

ционал вида

∫

=

T

dttuyFQ

0

),,(

. (4.40)

Прежде всего дискретизируем задачу, т.е. приближенно заменим непрерывную систему

дискретной. Этот этап является неизбежным при подготовке решения задачи на компьютере, и, в

то же время существенно упрощает процедуру поиска оптимального управления.

Запишем уравнение (4.39) в конечных разностях, разбив интервал

T

на N равных участ-

ков длительностью

NT /=Δ :

[]

)(),(

)()1(

0

ΔΔ=

Δ

−

Δ

+

kukyf

kyky

,

или

),(

1 kkkk

uyfyy

=

−

+

, (4.41)

где

Δ= ),(),(

0 kkkk

uyfuyf .

Заменим интеграл (4.40) суммой

∑

−

=

ϕ+=

1

0

)(),(

N

k

Nkk

yuyFQ

, (4.42)

где

Δ= ),(),(

0 kkkk

uyFuyF

.

В выражении (4.42) выделено последнее слагаемое суммы

)(

N

y

ϕ

при Nk = , так как оно не

зависит от управления, ибо при

Tt

=

процесс управления заканчивается и

0=

N

u

.

Теперь задача состоит в определении последовательных значений управляющих воздейст-

вий

k

u

( 1,0 −= Nk ), минимизирующих сумму (4.42) при условии (4.41) и ограничении

)(uu Ω∈ . Таким образом, вариационная задача свелась к задаче нахождения минимума

функции многих переменных.

Метод динамического программирования дает возможность свести эту операцию к после-

довательности минимизаций функции одной переменной. Для этого применяется прием,

заключающийся в движении от конца процесса

)( Tt

=

к его началу )0( =t .

Допустим сначала, что рассматривается момент времени t

N -1

=Δ(N–1). Все значения u

k

,

кроме последнего, уже каким-то образом были осуществлены и при этом получили опре-

деленные значения

1−N

y

, соответствующие моменту времени t

N-1

. Согласно принципу оп-

тимальности, воздействие

1N

u

−

не зависит от «предыстории» системы и определяется

лишь состоянием системы, характеризуемым величиной

1−N

y

и целью управления. На по-

следнем участке траектории (от

1N

t

−

до

N

t

) величина

1N

t

−

влияет на те члены суммы

(4.42), которые относятся к этому участку, т.е.

(

)

).(,

111 NNNN

yuyFQ

ϕ

+

=

−−−

Пользуясь (4.41) при k = N–1, запишем полученное выражение в виде

()

(

)

[

]

111111

,,

−−−−−−

+

ϕ

+

=

NNNNNN

uyfyuyFQ

. (4.43)

448

Так как целью управления является минимизация Q, то это условие необходимо выдер-

жать и для рассматриваемого участка. Обозначим

11

)(

1

min

−−

=

Ω∈

−

NN

SQ

uu

N

. Как видно из (4.43),

значение S

N-1

зависит от состояния системы в момент t

N-1

, т.е. от

1−N

y . Тогда

=

−−−

Ω∈

−

111

)(

1

min)(

NNN

QyS

uu

N

(

)

(

)

[

]

{

}

11111

,,min

)(

1

−−−−−

+

ϕ

+

=

Ω∈

−

NNNNN

uyfyuyF

uu

N

.

В данном случае для определения S

N –1

нужно производить минимизацию Q

N –1

только по

одному переменному u

N –1

. Выполнив эту операцию, получим S

N –1

в виде функции от

1−N

y .

Эту функцию необходимо запомнить в компьютере перед переходом к последующим ста-

диям решения. Перейдя к предпоследнему участку траектории (от t

N –2

до t

N –1

), получим

()

(

)

)(,,

11222 NNNNNN

yuyFuyFQ ϕ++=

−−−−−

. (4.44)

Пользуясь снова принципом оптимальности, можем сказать, что лишь значение

2−N

y и

цель управления (минимизация Q

N –2

) определяют оптимальное управление u

N –2

и u

N –1

на

рассматриваемом участке траектории. Но минимум по u

N –1

и, следовательно, само оптима-

льное значение u

N –1

= u

*

N –1

уже были найдены для каждого возможного значения

1−N

y .

Это позволяет с учетом того, что первое слагаемое (4.44) не зависит от u

N –1

, а два вторых

равны Q

N –1

записать

(

)()

[

]

11222

)(

22

,minmin)(

)()(

2

1

2

−−−−−

Ω∈

−−

+

=

Ω∈Ω∈

−

NNNNN

uu

NN

ySuyFQyS

uuuu

N

.

С учетом (4.41) при k = N–2 получим

(

)

(

)

[

]

{}

22212222

,,min)(

)(

2

−−−−−−−−

+

=

Ω∈

−

NNNNNNNN

uyfySuyFyS

uu

N

. (4.45)

Минимизация здесь производится также по одному переменному u

N –2

. При этом опреде-

ляются оптимальное значение управления u

*

N –2

и минимум функции Q

N –2

, равный S

N –2

.

Значение S

N –2

заносится в память компьютера, а S

N –1

стирается. Как u

*

N –2

, так и S

N –2

явля-

ются функцией

2−N

y . Продолжая аналогичным образом, получим рекуррентную формулу

вида

(

)

(

)

[

]

{}

.,,min)(

1

)(

kNkNkNkNkNkNkNkN

uyfySuyFyS

uu

kN

−−−+−−−−−

+

=

Ω∈

−

(4.46)

Выражение (4.46) называется уравнением динамического программирования в дискретной

форме.

Важно отметить, что оптимальное управление u

*

N – k

минимизирует все выражение в фи-

гурной скобке (4.46), а не одно лишь первое слагаемое F

N – k

. Стратегия, в которой каждое

значение u

N – k

выбиралось бы путем оптимизации лишь соответствующего слагаемого F

N –

k

, не является оптимальной, так как не учитывает конечной цели управления.

Вычисляя по формуле (4.46) последовательно значение S

N–k

и соответствующие u

*

N – k

, по-

лучим, наконец, значение управляющего воздействия, требуемое в начальный момент

времени u

*

(0) и минимальное значение критерия эффективности S(0). На этом процедура

отыскания оптимального управления заканчивается.

Весь процесс решения без затруднений переносится на объект управления, описываемый

дифференциальным уравнением любого порядка с любым числом выходных координат

системы и управляющих воздействий. Нужно лишь заменить скаляры

y , u в выражении

(4.46) векторами

y

,

u

, а функцию f – вектор-функцией

f

.

Как показал А.М.Летов, уравнение динамического программирования может быть записа-

но и в непрерывной форме.

449

Учитывая, что левая часть выражения (4.46) не зависит от управления, величину S

N–k

можно перенести в правую часть под знак минимума. Тогда (4.46) можно записать в виде

()

0,min

1

)(

=

⎭

⎬

⎫

⎩

⎨

⎧

Δ

−

+

−+−

−−

Ω∈

−

y

SS

uyF

kNkN

uu

kN

(4.47)

Произведя предельный переход при 0→

Δ

y и учтя, что ),( uyfy

=

Δ

, запишем (4.47) в не-

прерывной форме:

()

0),(

)(

,min

)(

=

⎥

⎦

⎤

⎢

⎣

⎡

+

Ω∈

uyf

dy

ydS

uyF

uu

. (4.48)

Для получения минимума выражения, стоящего в квадратных скобках, в уравнении (4.48),

его нужно продифференцировать по управлению. Тогда условие минимума (4.48) можно

заменить системой уравнений

()

0),(

)(

, =+ uyf

dy

ydS

uyF ;

(

)

0

)(),(,

=

∂

+

∂

dy

ydS

u

uyf

u

uyF

.

(4.49)

Решение системы (4.49) позволяет найти зависимость u = ϕ(

y ), при которой реализуется

оптимальное управление в смысле минимизации критерия (4.40). Для этого сначала из

второго уравнения системы (4.49) определяется величина

,/)( dyydS а затем искомая за-

висимость u = ϕ(

y ).

В случае, если система имеет n выходных координат

n

yyy ,...

1

= и r управлений

r

uuu ,...

1

= , имеем

()

0),(

)(

,min

1

)(

=

⎭

⎬

⎫

⎩

⎨

⎧

∂

+

∑

=

Ω∈

uyf

y

yS

uyF

i

n

i

uu

. (4.50)

или

()

0),(

)(

,

1

=

∂

+

∑

=

uyf

y

yS

uyF

i

n

i

;

(

)

0

),(

)(,

111

=

∂

+

∂

∑∑∑

===

j

i

n

i

r

j

i

r

j

u

uyf

y

yS

u

uyF

.

(4.51)

Система уравнений (4.51) является наиболее распространенной формой записи уравнений

динамического программирования в непрерывной форме. Заметим, что функция

)( yS

должна быть непрерывной и дифференцируемой по

i

y

. При этом

i

yyS ∂∂ )( играет ту же

роль, что и неопределенный множитель

i

λ

в вариационной задаче на условный экстремум.

Уравнения

),(/ uyfdtdy

ii

= аналогичны уравнениям связи.

Пример 4.5. Пусть требуется провести трубопровод энергоносителя между пунктами О и

Т таким образом, чтобы стоимость прокладки была минимальной. Это статическая вариа-

ционная задача. Так как прокладка осуществляется на участке территории, ограниченном

по различным причинам, и математическое описание местности отсутствует, то для ре-

шения задачи целесообразно воспользоваться рекуррентным соотношением (4.46).

Решение. Разобьем путь между О и Т на несколько горизонтальных и вертикальных уча-

стков с интервалом Δ, т.е. дискретизируем задачу (рис.4.9). Стоимость строительства на

каждом участке F

N–k

можно подсчитать заранее с помощью топографической карты и

другой априорной информации. На рис. 4.9 эта стоимость приведена в условных едини-

цах.

450

Т

3

8

25

10

37

46

44

5

3

8

26

24

37

39

54

52

59

13

15

10

14

18

8

10

7

11

1

6

8

17 1

5

9

16

18

9 9

16

7

11

18

O

2

1

−

N

1

−

N

3

1

−

N

1

2

−

N

4

2

−

N

3

2

−

N

2

−

N

3

4

−

N

2

3

−

N

5

3

−

N

4

3

−

N

3

−

N

6

4

−

N

5

4

−

N

4

−

N

12

Δ

N

Рис. 4.9

Решение задачи начинаем с конечного пункта Т (точка N). В точку N можно попасть за

один последний шаг либо из точки N

1

–1 либо из N

2

–1. Заметим, что из каждой из этих то-

чек можно попасть в точку N только одним способом, т.е. на последнем шаге имеем

единственное управление u

N –1

. Примем, что в связи с окончанием строительства в точке N

затраты в этой точке минимальны и равны нулю, т.е.

ϕ

( y

N

) = 0. Тогда в соответствии с

(4.43) получим

2,1),()(minmin

111111

)()(

11

=

−−−−−−

Ω∈Ω∈

−−

iyFyFQS

iiii

i

N

i

N

i

NNNNNN

uu uu

.

Таким образом можно определить затраты на последнем участке и записать их в память

компьютера (на рис.4.9 численное выражение затрат указано в кружках). Перейдем к

предпоследнему участку строительства (от точек N

i

–2 до N

i

–1). Из точек N

1

–2 и N

3

–2, как

и ранее, есть только один путь в точку N

i

–1, а для точки N

2

–2 таких путей, а следователь-

но, и управлений

1

2

−N

u уже два. Вычислим затраты на предпоследний шаг с учетом затрат

на последний:

;251015)(

122

111

=+=+=

−−− NNN

SyFS ;24816)(

122

233

=

+

=

+

=

−−− NNN

SyFS

2

2221222

)

(

min{(,) [ (,)]}

N

NNNNNNN

uu

SFyuSyfyu

−

−−−−−−−

∈Ω

=++

.26

26818

281018

min

)(

2

=

⎪

⎭

⎪

⎬

⎫

⎪

⎩

⎪

⎨

⎧

=+

=

Ω∈

−

uu

N

Полученные результаты заносятся в память компьютера. Заметим, что путь из точки N

2

–2

в точку N, минимизирующий затраты

2−N

Q , соответствует управлению, при котором тру-

бопровод прокладывается в точку N

2

–1, а путь через точку N

1

–1 исключается из дальней-

шего рассмотрения.

Аналогично, переходя к последующим точкам, минимизируем на каждом шаге величину

Q

N–k

, отбрасывая неоптимальные траектории. Попав, наконец, в точку О и двигаясь от нее

к точке N, найдем траекторию, оптимальную для всего трубопровода (на рис.4.9 выделена

сплошной линией).

Исключение неоптимальных траекторий по мере движения от Т к О существенно упроща-

ет расчет по сравнению с методом простого перебора траекторий (в нашем случае

количе-

ство арифметических операций уменьшается более чем на порядок).

451

Пример 4.6. Пусть объект управления описывается уравнением вида

).,( uyfmuby

d

t

dy

=+=

Найти управление u, при котором минимизируется функционал

∫∫

∞∞

+==

0

22

0

)(),( dtuydtuyFQ

γ

.

В данном случае второе слагаемое в подынтегральном выражении функционала учитыва-

ет требование ограничения управления как по величине, так и по мощности.

Решение. Воспользуемся уравнениями Беллмана (4.49). Для рассматриваемого примера

эти уравнения примут вид

;0)(

22

=+++

dy

dS

mubyuy

γ

.02 =+

dy

dS

mu

γ

(4.52)

Исключив dS/dy, получим уравнение

02

22

=−+ mybyuum

γγ

,

решив которое относительно u, найдем

;kyu

−

=

γ

1

2

++=

m

b

m

b

k

.

Здесь решение со знаком минус перед корнем отброшено как не отвечающее требованиям

устойчивости.

Для нахождения минимального значения критерия воспользуемся вторым уравнением

системы (4.52)

()

2

0

2

0

2

min yy

m

kkydy

m

SQ

y

−===

∞

∫

∞

γγ

,

где

∞

y ,

0

y – заданные граничные значения выходной координаты y.

Принцип максимума

Принцип максимума был обоснован в работах Л.С.Понтрягина и его учеников как необ-

ходимый и достаточный признак оптимального процесса для линейных систем управле-

ния и необходимый для нелинейных.

Хотя принцип максимума был выведен самостоятельно, позже было доказано, что между

ним и принципом оптимальности Беллмана существует прямая связь. Для упрощения вы

-

кладок выведем принцип максимума, воспользовавшись уравнением Беллмана (4.50).

Введем новую координату

;),(

0

dtuyFQy

T

∫

== ).,(),(

0

uyfuyF

dt

dy

==

Тогда

nn

ffffyyyy ,,,;,,,

1010

KK ==

и уравнение (4.50) можно переписать в виде

,0),(

)(

min

0

)

(

=

⎭

⎬

⎫

⎩

⎨

⎧

⋅

∂

∑

=

Ω∈

uyf

y

yS

i

n

i

uu

(4.53)

где

.1/)(

0

=∂∂ yyS

452

Учтем, что max(–

y

) = –min(

y

) . Тогда (4.53) примет вид

.0),(

)(

max

0

)(

=

⎭

⎬

⎫

⎩

⎨

⎧

∂

−

∑

=

Ω∈

uyf

y

yS

n

i

uu

(4.54)

Обозначим

ii

yyS ∂∂−=ψ )( , тогда

n

,,,

y

yS

y

yS

ψψψ=

∂

−

∂

−−=ψ KK

10

1

)(

,,

)(

,1

и (4.54) запишется в виде

,0maxmax

)

0

)

(

=⋅=

Ω∈

∑

=

ff

uu

n

i

ii

ψψ

(4.55)

где

f⋅ψ – скалярное произведение двух векторов.

Выражение (4.55) и есть математическая запись принципа максимума Понтрягина.

Заметим, что при применении метода динамического программирования (в непрерывной

форме) необходимо предварительно найти функцию

)( yS , что связано с громоздкими

операциями, в частности, с решением дифференциальных уравнений в частных производ-

ных. Для применения принципа максимума необходимо знать значение вектора

ψ , кото-

рое можно найти значительно проще, решив так называемые сопряженные уравнения

.,0; ni

y

f

dt

d

i

=

∂

⋅∂

−=

ψ

(4.56)

Систему уравнений (4.56) можно получить, взяв полную производную функции многих

переменных

)( yS . Действительно, учтя, что ()/

ii

Sy y

ψ

=

−∂ ∂ , имеем:

i

n

j

i

jjj

i

n

j

ji

i

y

f

y

f

dt

dy

y

yS

yy

yS

dt

d

dt

d

∂

⋅∂

−=

∂

⋅∂

−=⋅

∂

⋅

∂

−=

∂

−=

∑∑

==

ψ

00

)()(

Часто уравнения (4.55) и (4.56) записывают в более компактной форме, обозначая скаляр-

ное произведение векторов

ψ и ),( uyf через Н:

0),,(max

)(

=

Ω∈

uyH

uu

ψ

, (4.57)

.

i

y

H

dt

d

∂

−=

ψ

(4.58)

Учитывая, что

∑∑

==

ψ=ψ=

n

i

n

i

ii

dt

dy

fH

00

, и взяв производную от H по ψ

i

, можно записать

.

i

H

dt

dy

ψ∂

∂

=

(4.59)

Система уравнений (4.58)-(4.59) представляет собой канонически сопряженную систему

типа известной из механики системы уравнений Гамильтона:

,;

P

A

d

t

dA

d

t

dP

∂

=

∂

−=

l

где A – полная энергия системы, затрачиваемая на перемещение тела на расстояние ℓ; P –

импульс силы.

Власов К.П. Теория автоматического управления

Подождите немного. Документ загружается.