• формат pdf
  • размер 1,86 МБ
  • добавлен 01 марта 2014 г.
Боярский К.К. Введение в компьютерную лингвистику
Учебное пособие. — СПб: НИУ ИТМО (Санкт-Петербургский национальный исследовательский университет информационных технологий, механики и оптики), 2013. — 72 с.
Рассматриваются основные принципы компьютерного анализа текстов на естественном языке. Приведены примеры анализа на трех уровнях - морфологическом, синтаксическом и семантическом с использованием соответствующего инструментария: словарей и корпусов текстов. Обсуждены возможные применения результатов анализа, в том числе в области классификации текстов и извлечения из них информации.
Для студентов специальности 036000 "Интеллектуальные системы в гуманитарной сфере".
Предмет компьютерной лингвистики.
Что такое компьютерная лингвистика?
Основные направления компьютерной лингвистики.
Компьютерный анализ текста.
Задачи лингвистических информационных технологий.
Инструментарий компьютерной лингвистики.
Словари.
Орфографический словарь.
Толковый словарь.
Этимологический словарь.
Словарь синонимов.
Обратный словарь.
Идеографический словарь.
Частотный словарь.
Способы сравнения слов.
Корпуса текстов. Классификация корпусов текстов.
Национальный корпус русского языка (НКРЯ) (http://ruscorpora.ru).
Разметка.
Структура морфологической информации в НКРЯ.
Семантическая разметка в Национальном корпусе русского языка.
Другие корпуса.
Автоматический анализ текста.
Морфологический уровень.
Представление морфологической информации. Словарь Зализняка. Омонимия в русском языке.
Синтаксический уровень.
Деревья составляющих. Синтаксическая омонимия.
Анафора и кореферентность.
Классификация и кластеризация.
Закон Ципфа. Закон Хипса.
Модель TF*IDF.
Классификация документов.
Классификация с обучением. Наивный байесовский классификатор.
Классификация с обучением. Другие алгоритмы.
Алгоритм Роккио. Алгоритм k-ближайших соседей.
Оценка результатов классификации. F-мера.
Кластеризация.
Восходящая кластеризация. Неиерархическая кластеризация.
Контент-анализ.
Литература.