degree
  • формат pdf
  • размер 519,35 КБ
  • добавлен 03 ноября 2012 г.
Исследование и разработка методов извлечения объектов и их атрибутов из таблиц текстовых документов
Астраханцев Н.А.
- М.: Факультет Вычислительной математики и кибернетики МГУ, 2011. – 54 с.
Содержание:
Постановка задачи.
Обзор существующих решений.
Выделяемые подзадачи.
Обрабатываемые форматы.
Неформатированный текст.
Изображения.
HTML.
Исследование и построение решения задачи.
Внутренний формат представления таблицы.
Ориентация таблицы.
Признаки машинного обучения.
Алгоритмы машинного обучения.
Экспериментальная проверка.
Разрозненные заголовки.
Обработка разрозненных заголовков.
Определение разрозненных заголовков.
Агрегирующие объекты.
Обработка агрегирующих объектов.
Определение агрегирующих объектов.
Отсутствие заголовка.
Признаки машинного обучения.
Алгоритмы машинного обучения.
Экспериментальная проверка.
Описание практической части.
Обоснование выбранного инструментария.
Общая схема работы.
Преобразование во внутренний формат.
Извлечение двух наборов объектов.
Преобразование в выходной формат.
Общая архитектура системы.
Характеристики функционирования.
Эффективность.
Производительность.
Сложность.
Приложения:
Описание формата XML.
Описание формата Wiki markup.
Описание выходного формата.