
Если известен коэффициент детерминации R
2
, то статистику F
(3.4.6) можно записать в виде
)1)(1(
)(
2
2
−−
−
=
mR
mnR
F
. (3.4.10)
Замечание 3.4.1. Для выбора наилучшего уравнения регрес-
сии использование только одного коэффициента детерминации
R
2
может оказаться недостаточным. Это обусловлено его увеличе-
нием при добавлении новых объясняющих переменных, хотя это
и не обязательно означает улучшение качества регрессионной
модели. «Чрезмерное» увеличение количества объясняющих пе-
ременных приводит к «проникновению» в уравнение регрессии
случайного слагаемого ε, которое не должно входить в уравне-
ние. Следовательно, необходимо учитывать не только близость
значений регрессии к исходным данным (разница
ŷ
i
– y
i
), но и
«сложность» регрессионной модели, которую можно определить
количеством объясняющих переменных. ♦
В соответствии со сделанным замечанием предпочтительнее
использовать
скорректированный коэффициент детерминации
2
(с поправкой на число объясняющих переменных), опреде-
ляемый по формуле
2
2
1
2
1
()
1
1
()
n
ii
i
n
i
i
yy
n
R
nm
yy
=
=
−
−
=− ⋅
−
−
∑
∑
)
, (3.4.11)
где – число коэффициентов регрессии.
m
Если известен коэффициент
R
2
, то скорректированный коэф-
фициент детерминации можно вычислить по формуле:
22
1
1(1)
n
R
nm
−
=− ⋅ −
−
)
. (3.4.12)
Видно, что в отличие от
R
2
(см. 4.4.8) величина
2
может умень-
шаться при увеличении количества объясняющих переменных.
Пример 3.4.2. По данным примера 3.2.1 определить множе-
ственный коэффициент детерминации и проверить значимость
полученного уравнения регрессии
y
= –3.54 + 0.854 x
1
+ 0.367 x
2
.
Решение. Вычислим следующие величины:
10 10
2
11
1
489.65; 496; 6.8.
10
TT T
ii
ii
bX y yy y y y
==
=====
∑∑
Теперь по формуле (3.4.9) вычисляем
811.0
8.610496
8.61065.489
2
2
2
=
⋅−
⋅−
=R
Вычисленное значение 0.811 коэффициента
R
2
говорит о том, что
вариация переменной
Y – добыча угля на одного рабочего на
81.1% объясняется изменением мощности угольного пласта (пе-
ременная
X
1
) и уровнем механизации (переменная X
2
).
В примере 2.5.4 был вычислен
R
2
= 0.75 для регрессии, вклю-
чающей только одну – мощность угольного пласта. Сравнивая
0.811 и 0.75, можно сказать, что добавление второй объясняющей
переменной
X
2
незначительно увеличило R
2
. Это понятно, так как
в примере 3.4.1 была показана незначимость коэффициента
b
2
при переменной
X
2
.
По формуле (3.4.12) вычислим скорректированный коэффици-
ент детерминации
2
для разного количества объясняющих пе-
ременных (величина
k):
если 1, 2km
= , то
2
9
1(10.75)0.720;
8
R =− − =
)
если 2, 3km
= , то
2
9
1 (1 0.811) 0.757
7
R =− − =
)
.
Хотя скорректированный коэффициент детерминации и увели-
чился при добавлении объясняющей переменной
2
, но это еще
не говорит о значимости коэффициента (см. пример 3.4.1, где
значение статистики
2
b
2
1.51
b
T
не удовлетворяет условию (3.4.2)).
107 108