498 Глава 3. Статистика цепей Маркова с дискретным временем
Аналогично
S
21
(M)
=
1
−
X
k
>
0
k
X
l
=
0
C
l
k
k
(
−
1)
l
( )
k
−
l
( )
l
+
1
(
+
)
k
−
l
(
+
)
l
+
1
. (3.5.30)
Можно показать, что ряды (3.5.29), (3.5.30) сходятся абсолютно при
<
<
1
/
2. Окончательно
S
11
(M)
=
X
m
>
1
m
(1
−
E
M
[p
m
12
])
=
1
−
−
S
12
(M), (3.5.31)
и аналогично
S
22
(M)
=
1
−
−
S
21
(M). (3.5.32)
Далее, обозначим через T
ij
(M), i, j
=
1, 2, матрицу, полученную путем
увеличения на 1 (i, j)
-
го элемента матрицы M:
T
11
(M)
=
+
1
, T
12
(M)
=
+
1
,
и т. д., а через E
T
ij
(M)
будем обозначать математическое ожидание отно
-
сительно той же плотности, что и в формуле (3.5.23), но с параметрами,
определяемыми матрицей T
ij
(M). Тогда имеет место следующее равенство:
E
M
[V
i
]
=
2
X
k
=
1
E
M
[p
ik
]r
ik
+
2
X
j,k
=
1
S
ij
(T
jk
(M)) E
M
[p
jk
]r
jk
, i
=
1, 2, (3.5.33)
где S
ij
(T
jk
(M)) определяется формулами (3.5.29)
–
(3.5.32), но с заменой M
на матрицу T
jk
(M).
Это уравнение ключевое. Подставляя в него выражения для S
ij
(T
jk
(M))
и переставляя подходящим образом слагаемые, в конце концов получим
уравнения (3.5.27) и (3.5.28). Например,
E
M
[V
1
]
=
+
a
+
+
b
+
1
−
−
S
12
(T
11
(M))
+
a
+
+
1
−
−
S
12
(T
12
(M))
+
b
+
S
12
(T
21
(M))
+
c
+
S
12
(T
22
(M))
+
d
=
=
a
+
b
(1
−
) (
+
)
+
(1
−
) (
+
)
×
×
X
k
>
0
k
X
l
=
0
C
l
k
k
(
−
1)
l
( )
k
−
l
( )
l
(
+ +
1)
k
−
l
(
+
)
l
[A
l
c
+
B
l
d
−
C
l
a
−
D
l
b],
§ 3.6. Элементы теории управления и теории информации 499
и простые вычисления показывают, что
A
l
=
+
l
+ +
l
, B
=
+ +
l
,
C
=
+
k
−
l
+ +
1
+
k
−
l
, D
=
+
1
+ +
1
+
k
−
l
,
откуда и следует уравнение (3.5.27).
§ 3.6. Элементы теории управления
и теории информации
Начнем с двух примеров, относящихся к задаче о секретаре (см. § 1.11).
Пример 3.6.1. Рассмотрим н.о.р.с.в. X
1
, . . . , X
m
, X
j
∼
U(0, 1). (Можно
считать, что X
j
соответствует
«
качеству
»
объекта j, выбранного случай
-
ным образом из
«
неограниченной популяции
»
, без возвращения.) Как
и в примере 1.11.1, мы рассматриваем задачу о секретаре с единственным
выбором, имеющую целью выбор объекта наивысшего качества путем
сравнения текущего объекта с предыдущими, при невозможности воз
-
вратиться к ранее отвергнутым объектам. Напомним, что в § 1.11 окон
-
чательные (и относительно простые) значения вероятности наилучшего
выбора возникали в пределе при m
→ ∞
. Например, если позволить
не единственный выбор, а выбор двух объектов, то вероятность успеха
повышается с 0,3678 до 0,5910. Сейчас же мы будем рассматривать случай
единственного выбора при полностью известном распределении и будем
определять оптимальную стратегию. Как будет видно из примера 3.6.2, эта
информация о распределении увеличивает вероятность успеха до 0,5802,
что ненамного меньше, чем 0,5910.
Решение. Нетрудно убедиться, что для любых i
=
1, . . . , m существует
такое оптимальное пороговое значение b
i
∈
(0, 1), что на шаге m
−
i
+
1
следует выбрать появившийся объект, если X
m
−
i
+
1
=
max[X
l
: 1
6
l
6
6
m
−
i
+
1]
>
b
i
, и отвергнуть его, если X
m
−
i
+
1
<
b
i
или X
m
−
i
+
1
<
<
max[X
l
: 1
6
l
6
m
−
i]. (В случае, когда X
m
−
i
+
1
=
max[X
l
: 1
6
l
6
6
m
−
i
+
1]
=
b
i
, любое из двух решений ведет к одной и той же вероятности
успеха.) Действительно, b
1
=
0 (это означает, что выбирается последний
из появившихся объектов, если он доставляет глобальный максимум, и до
этого выбор не сделан), тогда как b
2
=
1
/
2 (что является медианой
равномерного распределения U(0, 1)). Остальные b
i
будут превышать 1
/
2
(и монотонно растут по i); чтобы вычислить их точно, нужно использовать
вышеупомянутое условие нейтральности.
Предположим, что выбор не сделан на (m
−
i)
-
м шаге и X
m
−
i
+
1
=
=
max[X
l
: 1
6
l
6
m
−
i] (в этом случае назовем объект m
−
i
+
1