рокому колі інформаційних систем, є розробка нового типу те-
заурусів – тезаурус для автоматичного індексування документів.
З 1994 р. в АНО Центр інформаційних досліджень (Росія)
проводяться роботи по розробці тезауруса для автоматичного
індексування в суспільно-політичній галузі [109]. Так, наприклад, вже
починаючи з 1995 р., суспільно-політичний тезаурус активно викори-
стовується для різних додатків автоматичної обробки текстів, таких, як:
автоматне концептуальне індексування, автоматичне рубрикування з
використанням декількох рубрикаторів, автоматичне анотування текс-
тів тощо (Loukachevith, Salii, Dobrov, 1999). (Див. Общественно-поли-
тический тезаурус – базовый, поисковый инструмент в поисковой
системе “Россия ” (www.cir.ru.)).
Розглянемо основні відмінні риси традиційних тезаурусів для
ручного індексування і тезаурусів, які передбачають використовувати
для автоматичної обробки текстів.
Як вже відмічали раніше, основною метою розробки тради-
ційних ІПТ (Шемакин, 1974, LIV 1984, ...) та ін. є використання їх
одиниць (дескрипторів) для опису основних тем документів у процесі
ручного індексування [103].
По своїй суті тезаурус для ручного індексування є описом
штучною мовою, побудованим на основі природної мови. При цьому
сам процес індексування по такому тезаурусу базується на лінгвісти-
чних, граматичних знаннях, а також знаннях про предметну галузь.
Індексатор спочатку повинен прочитати текст, зрозуміти, а потім ви-
класти його зміст, використовуючи дескриптори за допомогою ІПТ.
При автоматичній обробці тексту індексатора посередника між
текстом і описом його змісту у вигляді дескрипторів немає. Існує
лише автоматичний процес і тезаурус.
До тезаурусу для автоматичного індексування (АІ-тезаурус)
повинні входити не тільки терміни, які представляють найважливіші
поняття в текстах даної предметної галузі, але й широке коло більш
специфічних термінів, що зроблять цей текст релевантним запиту за
поняттями більш високого рівня.
Так, наприклад: “Тезаурус дослідницької служби Конгресу
США” (LIV, 1984) не має такого дескриптора, як груз, а тільки де-
скриптор грузовые перевозки. При цьому в конкретному тексті може
обговорюватися проблема небезопасных грузов, безпосередньо про-
цес перевоз не згадується. Тільки опис терміна груз як окремої одини-
ці АІ-тезауруса може в процесі автоматичного індексування зробити
130