
анализа (так называемая «классификация с обучением»
4
) имеет большое
практическое значение. Часто бывает так, что определить принадлежность
объекта к группе не представляется возможным. Например, точный диагноз
больному в некоторых случаях можно поставить только после вскрытия.
Однако, пронаблюдав (а в последствии вскрыв) несколько сотен больных,
можно разработать надежную систему диагностики заболеваний по
внешним признакам, которая позволит ставить правильный диагноз живым
людям.
Прочие методы (кластерный анализ, многомерное шкалирование и анализ
главных компонент) помогают нам выявить изначально неизвестную
структуру в данных. Надо учитывать, что эти методы делают упор на
визуальное представление результатов, а не на проверку их статистической
значимости, оценка структуры данных «на глаз» весьма субъективна. Кроме
того, разнообразие данных не всегда может быть сведено к двумерному
пространству без существенных потерь информации. Поэтому полученные
классификации желательно было бы как-нибудь проверять. Можно
попробовать классифицировать данные несколькими методами и сравнить
полученные классификации. Если они совпадают в общих чертах, то ваши
результаты соответствуют реальному положению дел. Можно попробовать
описать полученные группы (если они выявляются) – то есть при помощи
описательных статистик или двухмерных графиков, или деревьев
классификации (раздел 2.7) найти отдельные переменные, значения
которых позволяют разграничить эти группы. Можно, наконец, проверить
достоверность классификации при помощи многомерного дисперсионного
анализа данных (раздел 2.8).
На самом деле, разница между анализом главных компонент (раздел 2.3) и
многомерным шкалированием (раздел 2.5) велика только в теории. В
реальных биологических исследованиях исходные данные в виде матрицы
расстояний встречаются довольно редко, а данные в виде переменных
можно без труда преобразовать в матрицу расстояний. Поэтому на практике,
как правило, используют оба метода и сравнивают их результаты (или
4
Конечно, дискриминантный анализ – это всего лишь один из множества существующих
методов классификации с обучением (и не самый лучший). Однако этот метод широко
распространен (может быть, потому, что он был придуман одним из первых) и реализован в
STATISTICA, поэтому рассказывать о классификации с обучением я буду на примере
именно дискриминантного анализа.