127
Для чего все это нужно? Законы словообразования, если они дейст-
вительно законы и выражены количественно, помогают формировать ту
научную базу данных, которая необходима для создания и совершенст-
вования новых информационных технологий, в частности, кодирования и
декодирования соотношений, переводов, распознавания образов слов и
слогов. Для этого нужны сведения о частотности слов в разговорном
языке и литературе различных стилей.
В частности, этими проблемами занимались сотрудники группы
«Статистика речи» под руководством профессора Р. Г. Пиотровского
из Санкт-Петербурга. Даже в не слишком длинном тексте можно отде-
лить знаки для согласных от знаков для гласных. Знание относительных
частот букв алфавита облегчает разгадку кодов, основанных на простой
замене букв знаками. Заметим, что буквосочетания по две, три, четыре и
т. д. буквы также имеют свой закон распределения.
Хотя статистическую вероятность точно определить невозможно, поскольку
нельзя реализовать неограниченную серию испытаний, главное — это уверенность в
том, что вероятность
р(А) существует. В связи с этим попытаемся ответить на вопрос:
«Всегда ли неограниченное повторение условий неизбежно влечет наличие вероятно-
сти?» Разумеется, нет, тут дело в конкретном опыте или реальной «практике». На-
пример, возьмем наугад несколько русских книг и подсчитаем частоту употребления
каждого слова в каждой книге — частоты редких слов будут различны. Можно
взять очень много книг, но частоты редких слов не станут приблизительно одинако-
выми, а наоборот не так уж редко будут появляться все новые слова.
Заметим, что частотные словари языка нужны не только специалистам по ма-
шинному переводу или теории информации, но и лингвистам, составляющим учеб-
ник языка. Известный российский математик Р. Л. Добрушин в упоминавшейся ста-
тье
«Математические методы в лингвистике» писал: «Невнимание к частотным
характеристикам языка (идущее от пренебрежения ко всему тому, что связано с
математикой) приводит к тому, что многие элементарные учебники иностранного
языка содержат на первых страницах очень редкие слова и не содержат широко
распространенных». В действительности сравнительно небольшое количество слов
«покрывает» большую часть текста. Именно на этом основан своеобразный язык Ba-
sic English, представляющий собой упрощенный вариант реального английского язы-
ка, содержащий всего около 1000 слов, и тем не менее их оказывается достаточно для
общения.
Составление частотных словарей — это не такое простое дело, как может, на
первый взгляд, показаться. Во-первых, невозможно использовать все тексты, напеча-
танные, например, по-русски, — необходим отбор. Во-вторых, интересно сравнить
частоту употребления различных слов в литературе и в обыденной речи, что очень
затруднительно. Существующие частотные словари языка далеки от совершенства,
поскольку в них приводятся частоты слов, которые подвержены случайным отклоне-
ниям и не делается оценок для их вероятностей. Лингвистический смысл имеют
именно вероятности, а не частоты.