Презентация
  • формат pdf
  • размер 2,99 МБ
  • добавлен 26 октября 2012 г.
Введение в обработку текстов. Лекция 6. Статистические методы синтаксического анализа
Турдаков Д.Ю.
- М.: Институт системного программирования РАН; Факультет Вычислительной математики и кибернетики МГУ, 2012. – 38 слайдов.

Математический спецкурс для 3-5 курсов.
Спецкурс предназначен для студентов 3-5 курсов, желающих получить знания и практические навыки в области обработки текстовой информации. Курс знакомит слушателей с основными проблемами компьютерной обработки текстов и современными подходами к их решению. Рассматриваются как фундаментальные понятия и идеи, так и современные исследования в данной области. Особое внимание уделяется применению методов машинного обучения, которые активно развиваются в настоящее время и показывают лучшие результаты.
Актуальность обработки текстовой информации на естественном языке связана с ростом количества документов, доступных для автоматической обработки, потребностью в их анализе и наличием вычислительных ресурсов. Слушатели получат базовые знания в области обработки текстов на естественном языке, понимание проблем, возникающих при разработке систем текстового анализа, и подходов к их решению.

Содержание:
Мотивация.
Стохастические контекстно-свободные грамматики (СКС).
Разрешение синтаксической многозначности.
Моделирование языка.
Вероятностная версия алгоритма CKY.
Обучение СКС.
Проблемы СКС.
Разделение и слияние нетерминалов-СКС с поддержкой лексики.
Алгоритм Коллинза.
Методы оценки.
Стохастические контекстно-свободные грамматики.
N-множество нетерминальных символов.
Множество терминальных символов (непересекающееся с N).
R-множество правил.
Преобразование грамматики.
Оригинальная грамматика.
Грамматика в нормальной форме Хомского.
Выбираем наиболее вероятное дерево разбора.
Решение проблемы зависимостей.
Разделение и слияние.
СКС с поддержкой лексики.
Оценка вероятности.
Оценка качества алгоритма.
Делают ли люди синтаксический разбор?
Предложения с временной неоднозначностью.
Сложность языка.