модели необходимо учесть все факторы, которые могут влиять на отклики. В список
подозреваемых факторов для регрессионного анализа лучше включить заведомо мало значимые,
чем пропустить существенно значимые факторы [3]. Пропуск существенно значимых факторов в
модели может привести к получению неадекватных ЭФР. Эта проблема решалась нами на этапе
сбора данных. Предполагали, что все существенные факторы в модели (1) учтены.
4. Мультиколлинеарность факторов. Явление мультиколлинеарности факторов
возникает, когда между факторами, входящими в ЭФР, существует почти точная линейная
зависимость. Это явление затрудняет интерпретацию коэффициентов регрессии, так как приводит
к значимой корреляции между ними, допускает искажение их значений вплоть до изменения
знаков. Известные способы решения проблемы мультиколлинеарности [2, 3, 5] сложны, а главное,
не способствуют уменьшению самой мультиколлинеарности. Проще всего для получения
интерпретируемых ЭФР воспользоваться тем, что процедура отбора существенных факторов (СФ)
[2] позволяет получить сразу несколько ЭФР, из которых исследователь может выбрать такие,
которые включают незначимо или слабо коррелирующие между собой факторы. В настоящей
работе используется также новый метод решения проблемы мультиколлинеарности [8]. Назовем
его "методом ортогонализации мультиколлинеарной матрицы плана". Предлагается из
множества строчек данных матрицы плана регрессионного эксперимента выбрать такое
подмножество, которое доставляло бы минимум максимальному по модулю коэффициенту
корреляции между оценками коэффициентов регрессии [8].
Описанный метод полностью не решает проблемы мультиколлинеарности, однако, как
показывает практика, существенно повышает шанс успеха в поиске пригодной ЭФР.
5. Влияющие факторы. Если какой-нибудь фактор x
j
в таблице данных принимает большое
количество N - n значений, колеблющихся вокруг некоторой средней точки, и небольшое
количество п далеких значений, то есть далеко отстоящих от основной группы, то такой фактор
может оказаться "влияющим". Это значит, что отбрасывание всего п его далеких значений может
привести к существенному изменению значений коэффициентов регрессии или даже вида всей
ЭФР [3]. Для выявления влияющих факторов предлагается [3] отбрасывать n далеких точек.
Допустим, такое отбрасывание покажет, что фактор x
j
- влияющий. В этом случае отброшенные
точки в дальнейшем расчете не используются. Подобное дополнительное отбрасывание точек
нежелательно по причинам, изложенным выше. Для решения проблем статистического
анализа, которые возникают при наличии влияющих факторов, в настоящей работе
предложено вводить в ЭФР новые базисные функции влияющих факторов. Например, если
фактор x
j
"подозревается" в том, что он может быть влияющим, то в ЭФР (1) вводятся
дополнительные базисные функции
2
j
x ,
3
j
x и т. д. Если после обращения к программе PA
обнаружено, что коэффициенты регрессии при этих функциях значимы, то предположение о
том, что фактор x
j
является влияющим, подтверждается, a eгo влияние учитывается
значимыми членами
2
jjj
xβ ,
3
jjjj
xβ и т. д.
6. Подбор исходной структуры ЭФР. Наиболее значительная трудность решения задач PA
заключается в правильном подборе структуры исходной регрессионной функции. Обычно такую
функцию задают с заведомо большим, чем ожидают получить, числом факторов, "подозреваемых"
в том, что они могут быть существенными в искомой регрессионной функции. Затем с помощью
процедуры отбора СФ, включенных в программу РA, находят их.
Описанный прием срабатывает, когда в число "подозреваемых" факторов действительно
включены все существенные факторы. Причем даже простое включение этих факторов еще не
гарантирует адекватность полученной ЭФР исходным данным [2, 3]. Возможно, что
существенные факторы должны входить в виде попарных произведений, квадратов, кубов или
других "базисных" функций. Если же структуру исходной регрессионной функции задать
слишком сложной, то обработка данных на ЭВМ станет слишком продолжительной, или даже
невозможной. Так, одно лишь включение попарных произведений факторов в структуру формулы
(1) увеличивает эту функцию на 441 член, а время расчетов - на несколько часов.
Для решения указанной проблемы в настоящем исследовании расчеты выполнялись
поэтапно. На первом этапе использовали линейные члены (просто факторы), затем методом PA
собирали значимые члены, проверяли адекватность ЭФР. Если ЭФР адекватна, расчеты
прекращали; в противном случае вектор базисных функций дополняли попарными
произведениями значимых факторов, повторяли расчеты, получали новые ЭФР и проверяли их