подпрыгивал вместо того, чтобы сидеть спокойно, то его артериальное
давление будет существенно выше, чем у остальных). В этих случаях
выбросы, естественно, удаляют из данных. Что же делать, если выброс
кажется "вполне нормальным" значением? Например, вы измеряли длину
листьев березы, и все листья были 5-10 см длиной и тут вам попался лист 20
см длиной! Почему он вырос таким -- тема для отдельного исследования, но
из данных такое значение лучше все же исключить, потому что оно мешает
увидеть нам общую картину.
Наконец, мы добрались до пропущенных данных. Они тоже могут
возникнуть по нескольким причинам. Допустим, вы решили измерять
черешки листьев у разных видов растений. Вполне может получиться так,
что у одного листа той же березы черешок совершенно случайно оторвется,
когда вы будете измерять лист. В результате, черешок останется не
измеренным. В ваших данных вам придется оставить пустую ячейку. Когда
вы доберетесь до листьев осок, то черешка вы там не найдете вообще.
Наконец, пропущенные данные могут появиться при удалении тех самых
выбросов. Как же быть с получившимися пустыми ячейками? Помните, что
коварная STATISTICA и их способна заменить на числа, а подавляющее
большинство типов анализа данных не способно работать с пропущенными
значениями! Есть несколько выходов (я надеюсь, что ваши данные
представлены в виде таблицы, где столбцами (Variables) являются
исследуемые признаки, а строками (Cases) -- исследуемые объекты). Если
пропущенных значений немного и они принадлежат к разным признакам,
можно просто удалить содержащие их строки (необязательно физически
удалять строки из таблицы, можно указать это в параметрах анализа!). Если
у вас довольно много пропущенных значений находится в одном столбце, то
можно удалить этот столбец. Если же ваши пропущенные значения в
достаточном количестве рассеяны по всей таблице, можно попробовать
заменить их на что-нибудь. Вполне естественно в случае с черешками у
листьев осок принять их длину равной 0 (то есть решить, что черешок у них
как бы есть, но просто очень короткий, незаметный). Понятно, что такой
подход нельзя применить к листу березы с оторванным черешком. Ведь его
длина не равна нулю, мы просто не знаем, какая она! Здесь пропущенное
значение можно заменить на среднее значение выборки или что-нибудь
вроде этого. Но такой подход нужно применять с большой осторожностью,
потому что откуда мы знаем, что это был "среднестатистический лист".