Презентация
  • формат pdf
  • размер 3,03 МБ
  • добавлен 15 октября 2012 г.
Введение в обработку текстов. Лекция 3. Статистические методы поиска словосочетаний
Турдаков Д.Ю.
- М.: Институт системного программирования РАН; Факультет Вычислительной математики и кибернетики МГУ, 2012. – 37 слайдов.
Математический спецкурс для 3-5 курсов.
Спецкурс предназначен для студентов 3-5 курсов, желающих получить знания и практические навыки в области обработки текстовой информации. Курс знакомит слушателей с основными проблемами компьютерной обработки текстов и современными подходами к их решению. Рассматриваются как фундаментальные понятия и идеи, так и современные исследования в данной области. Особое внимание уделяется применению методов машинного обучения, которые активно развиваются в настоящее время и показывают лучшие результаты.
Актуальность обработки текстовой информации на естественном языке связана с ростом количества документов, доступных для автоматической обработки, потребностью в их анализе и наличием вычислительных ресурсов. Слушатели получат базовые знания в области обработки текстов на естественном языке, понимание проблем, возникающих при разработке систем текстового анализа, и подходов к их решению.
Содержание:
Словосочетания/коллокации.
Выделение ключевых слов.
Взвешивание терминов.
Предобработка текста.
Разбивка на слова/токены.
Фильтруем короткие слова.
Стемминг.
Выделение словосочетаний.
Поиск кандидатов.
Инструменты.
Частота.
Частота с фильтрацией по тэгам.
Математическое ожидание и дисперсия.
Гисторамма.
Проверка статистических гипотез.
Нулевая гипотеза.
T-критерий Стьюдента.
Т-статистика.
T-критерий для словосочетаний.
Хи-квадрат.
X2 - для биграмм.
Критерий отношения правдоподобия.
Бернулли и биномиальное распределение.
Отношение правдоподобия.