
чтобы столбцы – переменные – стали строками, а строки – объекты –
столбцами (в главном меню Edit → Transpose → Data File). В этом случае на
стартовой панели нужно будет выбрать перечень классифицируемых
объектов (Variables) и перечень признаков (Select cases), после этого нужно
повторить все действия, описанные в предыдущем абзаце для получения
графика (Plot of loadings, 2D).
Стандартизация признаков: scale(data[,1:5]).
Анализ главных компонент реализуется двумя последовательными командами:
data.pca <- princomp(scale(data[,1:5]))
data.p <- predict(data.pca).
Долю изменчивости, описываемую каждой из компонент, и вклад отдельных
признаков в каждую из компонент можно узнать так: loadings(data.pca) – строка
Proportion Var нижней таблицы и верхняя таблица соответственно. Графическое
изображение вклада отдельных признаков в две первые главные компоненты:
biplot(data.pca) – признаки обозначены красными стрелками. Графическое
изображение доли изменчивости, описываемой каждой из компонент: plot(data.pca).
Классификация объектов на плоскости двух первых главных компонент:
plot(data.p[,1:2], type="n", xlab="PC1", ylab="PC2")
text(data.p[,1:2], labels=data[,6]) – каждый объект обозначается номером группы из
шестой колонки – или просто
plot(data.p[,1:2], xlab="PC1", ylab="PC2") – каждый объект обозначается кружочком.
2.4. Кластерный анализ (модуль Cluster analysis, Startup panel: joining
(tree clustering))
Кластерный анализ основан на выделении групп сходных между собой
объектов, то есть кластеров
9
. На сегодняшний день разработано множество
методов кластерного анализа (целых семь групп методов), из которых в
биологии обычно используются методы, основанные на последовательном
объединении объектов в иерархические
10
кластеры (так называемые
агломеративные методы). Примером такой классификации может служить
Линнеевская система живого: сходные виды объединяются в рода, сходные
рода – в семейства…
9
Общепринятое или просто полезное определение этого термина отсутствует, и многие
исследователи считают, что уже слишком поздно или вовсе незачем пытаться найти такое
определение.
10
Это значит, что несколько мелких (состоящих из небольшого числа объектов) кластеров
объединяются в кластер среднего размера, несколько таких средних кластеров
объединяются в кластер покрупнее и т.д.