
Интеллектуальные методы и подходы… 166
вание в этой модели основано на естественном статистическом наблю-
дении — чем больше локальная частота термина в документе и больше
«редкость» (т.е. обратная встречаемость в документах) термина в кол-
лекции, тем выше вес данного документа по отношению к термину.
Другое обозначение векторной модели TF*IDF.
Вероятностная модель. Данную модель разработали и
обосновали
в 1977 году Робертсон и Спарк-Джоунз. Релевантность в этой модели
рассматривается как вероятность того, что данный документ может ока-
заться интересным пользователю. При этом подразумевается наличие
уже существующего первоначального набора релевантных документов,
выбранных пользователем или полученных автоматически при каком-
нибудь упрощенном предположении. Вероятность оказаться релевант-
ным для каждого следующего документа
рассчитывается на основании
соотношения встречаемости терминов в релевантном наборе и в осталь-
ной, «нерелевантной» части коллекции. Хотя вероятностные модели
обладают некоторым теоретическим преимуществом, ведь они распола-
гают документы в порядке убывания "вероятности оказаться релевант-
ным", на практике они так и не получили большого распространения.
Заметим, что в каждом из семейств
простейшая модель исходит из
предположения о взаимонезависимости слов и обладает простым усло-
вием фильтрации: документы, не содержащие слова запроса, никогда не
бывают найденными. Продвинутые модели каждого из семейств не счи-
тают слова запроса взаимонезависимыми, а, кроме того, позволяют на-
ходить документы, не содержащие ни одного слова из запроса.
Применение тезаурусного метода поиска в Интернет
Тезаурусы находят сегодня ограниченное применение в универсаль-
ных полнотекстовых поисковых машинах Интернета. Одна из причин
ограниченности состоит в том, что чрезвычайно трудно построить те-
заурус, который соответствовал бы тематическому разнообразию ин-
формации, индексируемой универсальной машиной поиска. С другой
стороны, полнота не является критическим параметром универсальных
поисковых систем Интернета.
Короткие запросы – характерная
черта интернет-поиска. Средняя
длина запроса к поисковой системе Яндекс за последнюю неделю фев-
раля 2004 года составила 2,81 слова. Если сравнить этот показатель с
данными 1997 и 1999 годов (1,2 и 2,7 слова соответственно), то можно
предположить, что рост средней длины запроса замедлился. Короткие
запросы, увеличение объема и разнообразия информации в Сети, а так-
же
тот факт, что большинство пользователей анализируют только одну