• формат pdf
  • размер 4,61 МБ
  • добавлен 16 февраля 2012 г.
Большакова Е.И. и др. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика
Учеб. пособие / Авторы: Большакова Е.И., Клышинский Э.С., Ландэ Д.В., Носков А.А., Пескова О.В., Ягунова Е.В.
М.: МИЭМ, 2011. — 272 с.
ISBN 978–5–94506–294–8
Тираж 500 экз.
В учебном пособии рассматриваются базовые вопросы компьютерной лингвистики: от теории лингвистического и математического моделирования до вариантов технологических решений. Дается лингвистическая интерпретация основных лингвистических объектов и единиц анализа. Приведены сведения, необходимые для создания отдельных подсистем, отвечающих за анализ текстов на естественном языке. Рассматриваются вопросы построения систем классификации и кластеризации текстовых данных, основы фрактальной теории текстовой информации.
Предназначено для студентов и аспирантов высших учебных заведений, работающих в области обработки текстов на естественном языке.
Оглавление:
Основы теоретической, вычислительной и экспериментальной лингвистики, или размышления о месте лингвиста в компьютерной лингвистике (Ягунова Е.В.)
Предисловие (несколько слов от себя)
Язык. Текст. Основы лингвистики и теории речевой коммуникации
Язык. Введение
Язык или языки. Текст или тексты. Основы речевой коммуникации
Лингвистика и лингвистики. Принцип моделирования. Цели, методы, задачи
Слово — коллокация – синтаксические конструкции – текст. Единица анализа и контекст.
Инвентарные и конструктивные единицы. Понятие «текущего словаря»
Избыточность. Контекстная предсказуемость
Единица анализа и контекст. Коллокации и конструкции
Типы коллокаций и конструкций. Принцип шкалирования
Семантическая и информационная структуры при анализе текстов и/или коллекций. Основные элементы этих структур
Текст. Общие положения
Анализ текста в парадигме когнитивных исследований
Анализ текста в парадигмах автоматического понимания текста
Коммуникативная и информационная (смысловая) структуры текста
Избыточность. Компрессия текста. Свертки текста
Объект исследования современной лингвистики текста. Текст vs. информационный поток
Объекты исследования современной лингвистики текста. Информационный поток
Коллокации и конструкции как составляющие текстов
Свертки для описания разных информационных объектов: от текстов до информационных потоков
Список используемой литературы
Компьютерная лингвистика: методы, ресурсы, приложения (Большакова Е.И.)
Введение
Задачи компьютерной лингвистики
Особенности системы ЕЯ: уровни и связи
Моделирование в компьютерной лингвистике
Лингвистические ресурсы
Приложения компьютерной лингвистики
Заключение
Список использованной литературы
Начальные этапы анализа текста (Клышинский Э.С.)
Этапы анализа текста
Морфологический анализ и синтез
Словарный морфологический анализ и синтез
Автоматизированное пополнение морфологического словаря
Методы бессловарного морфологического анализа
Коррекция орфографических ошибок
Постморфологический и предсинтаксический анализ
Автоматизированное снятие омонимии
Постморфологический анализ
Синтаксическая сегментация
Инструментальные системы разработки приложений по автоматической обработке текстов на естественном языке (Носков А.А.)
Введение
Программные средства лингвистической обработки
Представление лингвистических данных

Подходы к представлению данных
Лингвистическая разметка
Лингвистические аннотации
Представления, основанные на абстракции
Недоспецифицированные представления
Архитектура инструментальных ЕЯ-систем
Компонентная организация
Процессы обработки текста
Системы обработки ЕЯ-текстов
Системы на базе разметки
Системы на базе аннотаций
Системы интеграции поверхностной и глубокой обработки
Системы, развивающие отдельные аспекты обработки текста
Прочие системы
Список литературы
Алгоритмы классификации полнотекстовых документов (Пескова О.В.)
Алгоритмы классификации с учителем
Представление данных в задачах классификации текстов
Отбор терминов для классификации
Алгоритм "наивной" байесовской классификации
Алгоритм Роккио
Алгоритм k-ближайших соседей
Алгоритм опорных векторов
Алгоритм деревьев принятия решений
Алгоритм наименьших квадратов
Экспериментальная оценка результата классификации с учителем
Выбор метода классификации с учителем
Алгоритмы классификации без учителя
Иерархические алгоритмы
Алгоритм k-средних
Плотностный алгоритм DBSCAN
Нечёткий алгоритм с-средних
Инкрементный алгоритм C2ICM
Нейросетевой алгоритм SOM
Экспериментальная оценка результата классификации без учителя
Выбор метода классификации без учителя
Список используемой литературы
Информационные потоки и сложные сети (Д.В. Ландэ)
Основы анализа информационного пространства и информационных потоков
Понятие информационного пространства
Информационный поток как объект исследования
Тематические информационные потоки
Моделирование информационных потоков
Модель диффузии информации
Самоподобие в информационном пространстве
Ранговые распределения в лингвистике
Степенное распределение и самоподобие
Основы фрактального анализа информационных потоков
Сложные информационные сети
Основы концепции сложных сетей
Параметры сложных сетей
Сложные сети и задачи компьютерной лингвистики
Моделирование сложных сетей
Список используемой литературы