335
более точно,  распознавать присутствие тех  или иных образов  в составе 
данных  специального  вида.  Это  позволило  построить  систему  индекса-
ции  общего  назначения,  которую  можно  применять  к  основным  видам 
данных,  включая  устную  речь (голос),  сигналы,  тексты  и изображения. 
Был  также  создан  комплекс  алгоритмов,  самостоятельно  адаптирую-
щихся  к  особенностям  обрабатываемой  информации  и  позволяющих 
осуществлять  нечеткий  поиск - поиск образов,  составленных  из двоич-
ных символов. 
В технологии APRP под нечетким поиском понимается возможность 
найти достаточно близкое приближение к запрошенному термину или фра-
зе.  Нечеткий  поиск  устраняет  для пользователя  необходимость  знать  пра-
вильное  написание  каждого  термина,  с  которым  он  работает.  Поскольку 
APRP работает не с ключевыми словами, а с образами, две-три ошибочные 
буквы в слове или фразе не могут существенно изменить базовую картину 
текста. Таким образом, автоматически становится исправимой ошибка, как 
во  входных  данных,  так  и  в  терминах  запроса. APRP всегда  в  состоянии 
найти ближайшее приближение к терминам и фразам, заданным в качестве 
объектов поиска. Поясним это на примере. 
Даже, если мы напишем в запросе: 
ЦЦЦТЕРМАРГМАСАРИТАЭЭЭЭЭЭ, 
имея  в  виду  название  романа  Михаила  Булгакова,  мы  получим 
правильный ответ: "Мастер и Маргарита".  
Поиск происходит следующим образом: 
-  Запрос конвертируется в бинарную форму 
-  Игнорируется шум, т.е. отбрасываются ЦЦЦ и ЭЭЭЭЭЭ 
-  Проводится нечеткий поиск 
 
Как  реально  происходит  нечеткий  поиск?  Ранее  упоминалось,  что 
технология APRP оперирует информацией на уровне двоичных кодов, т. е. 
каждое слово для нее - это образ, состоящий из нулей и единиц. Например, 
слово "пень" для нее представляется двоичным образом 10101111 10100101 
10101101 11101100; а  слово "печь"  имеет  двоичный  образ 10101111 
10100101 11100111 11101100 (каждая буква в слове представляется одним 
байтом). Сравним двоичные образы обоих слов: 
ПЕНЬ -  
10101111 10100101 10101101 11101100 
ПЕЧЬ -  
10101111 10100101 11100111 11101100 
 
Из 32 позиций каждого двоичного образа не совпадают только ком-
бинации из 6-ти элементов, что составляет лишь около 20% от длины дво-
ичного  образа.  С  точки  зрения  технологии APRP образы  этих  слов  очень 
близки к друг другу, и в качестве результата поиска вам могут быть пред-
ложены  документы,  содержащие оба слова, а вы  укажете, которые  из  них 
вы имели ввиду при поиске. Приведенный пример, однако, не означает, что 
вам будет предложен  бесконечный список вариантов, в той или иной сте-
пени похожих на ваш запрос.