54
групп испытуемых, уровень их подготовленности, а также другие факторы, связанные не 
столько с тестом, сколько с условиями его проведения. Поэтому в последние годы стали 
чаще писать о надежности измерения, имея в виду тест как результат тестирования в кон-
кретно определенных условиях, а не общую характеристику теста как метода. 
Подробно ситуацию
 с определением надежности теста в тестологии описал Е. А. Михай-
лычев [
Дидактическая тестология. М.: Народное образование, 2001. – 432 с.]. 
Оказывается,  недоверие  к  понятию «надежность»  давно  существует  в  среде  тестологов. 
Так нужна ли она – «надежность»? Может, она должна уступить место другой характери-
стике, более адекватно отображающей свойства теста? 
При внимательном рассмотрении тестологических работ можно заметить, что сами значе-
ния «коэффициента надежности», тщательному измерению которых посвящается так мно-
го сил, после 
измерения и вычисления нигде реально не применяются. Используется лишь 
мнение, порожденное  в процессе измерения – «этот  тест лучше,  а тот – хуже».  Но разве 
нельзя для упрочения мнения придумать другие, менее спорные критерии? 
Понятие «надежность», оказывается, не одиноко, в смысле нашего критического рассмот-
рения. При повторении сеансов, так же, как значения коэффициента «надежности
», «плы-
вут» и значения весов заданий. При этом даже не важно – те же претенденты пришли на 
повторный  сеанс,  или  другие.  Важно  лишь,  чтобы  сеансы  были  последовательными,  а 
претенденты имели возможность общаться.  
Веса заданий занимают одно из центральных мест в парадигме IRT. С помощью значений 
весов темперируют тест, упорядочивают задания по критерию 
сложности. 
Рассмотрим реальную ситуацию. Возьмем тест, составленный в полном согласии с кано-
нами учебной дисциплины и тестологии. Возьмем две группы претендентов, которые пре-
красно подготовлены по двум разным учебникам этой дисциплины соответственно. Пусть 
группы будут разной численности. Разные учебники потому и разные, что разные вопросы 
дисциплины там  освещены по-разному, в
 том числе и по-разному несовершенно.  Следо-
вательно,  часть  заданий  гарантированно  правильно  выполнят  претенденты  из  первой 
группы, другую часть – из второй. Тогда, вычисленный после сеанса вес каждого задания 
окажется зависимым от соотношения численности групп. Сколько бы мы не рассуждали о 
«репрезентативности», от этой определенности никуда не денешься. Чем меньше претен
-
дентов выполнивших конкретное задание, тем выше его вес. Следовательно, при условии 
равновероятности соответствия заданий тому и/или иному учебнику, вероятность победы 
выше у тех претендентов, которые принадлежат меньшей группе. 
Выбор учебника для  учения – дело субъективное. Получается, что  значения весов  также 
субъективны. Но тогда зачем тратить столько сил на расчет этих 
значений?  
Период  вычислений  весов  долог.  Пока  пройдут  тестирования  сотни  и  тысячи  учащихся 
проходят недели и месяцы. Но это не вся трудность. За это время в учебных заведениях 
многое меняется, появляются новые учебники, меняются учебные программы, сами учеб-
ные  дисциплины  становятся  другими. «Плывет» основательность  знаний учащимися  тех 
или иных разделов дисциплины. При
 всем этом, естественно, должны меняться и базы за-
даний. Вместе с базами, должны измениться и значения весов заданий. И это – еще не все 
аргументы. 
В тестологии разъясняют такую ситуацию, т. е. «плывущие» результаты измерений, «не-
репрезентативностью»  выборки  претендентов.  Это  можно  было  бы  так  и  оставить,  если 
бы не видны были 
явные закономерности «заплывов» этих чисел. Можно утверждать: ес-
ли претенденты мотивированы, а временные интервалы между сеансами достаточно вели-
ки и претенденты имеют возможность общения, то после нескольких сеансов мы увидим - 
А) веса заданий стремятся стать равными: