• формат pdf
  • размер 528,98 КБ
  • добавлен 03 мая 2013 г.
Борисов Л.А., Орлов Ю.Н., Осминин К.П. Идентификация автора текста по распределению частот буквосочетаний
Препринты ИПМ им. М.В. Келдыша. 2013. № 27. 26 с.
Исследованы распределения расстояний между распределениями триграмм, получена оценка точности частот буквосочетаний в зависимости от длины текста и даны оценки вероятности правильной идентификации автора текста по близости текста к его средневзвешенному эталону в смысле распределения частот. Построены авторские длины представительности для большого числа писателей и показано, что стабилизация триграмм происходит примерно на половине текста независимо от автора и длины текста. Проведен анализ литературного наследия Е.И. Рерих с целью кластеризации ее произведений и проверки ряда утверждений о возможном соавторстве.
Содержание:
Распределение расстояний между выборочными распределениями
Точность оценки вероятностей буквосочетаний
Авторская длина представительности
Статистический эксперимент определения автора текста
Анализ литературного наследия Е.И. Рерих