Leskovec Jure, Rajaraman Anand, Ullman Jeﬀrey D. Mining of massive datasets

Распределенные вычисления и системы

Компьютерная литература

формат pdf
размер 3,54 МБ
добавлен 22 июля 2016 г.

Leskovec Jure, Rajaraman Anand, Ullman Jeﬀrey D. Mining of massive datasets

- Stanford Univ., Milliway Labs. 2014, - 516 p.
Язык – англ.

Книга написана на основе курса «Большие данные», читаемого А. Раджараманом и Дж. Ульманом в Стэндфордском университете с 2010 года, позднее курс был расширен лекциями Ю. Лесковеца по анализу сетей, что к 2014 году вылилось в курс CS341: «Проект крупномасштабного дата-майнинга».
Особенность данной книги – сфокусированность на очень больших объемах данных, которые невозможно разместить в оперативной памяти компьютера. С учетом акцента на объеме данных, многие из наших примеров – о данных про интернет, либо о данных полученных из веба. Более того, изложение придерживается алгоритмической точки зрения: дата-майнинг, это в первую очередь искусство применения алгоритмов к данным, и лишь во вторую – использование данных для обучения компьютерного движка какого либо вида.
Основные разделы книги следующие:
1. Распределенные файловые системы и map-reduce как инструмент параллельных алгоритмов, обрабатывающих огромные объемы данных.
2. Поиск сходства, включая технику minhashing и локально чувствительного хэширования.
3. Обработка потоков данных и специальные алгоритмы обработки несохраняемых данных в реальном времени.
4. Технология поисковых машин, включая Гугл-Ранкер, обнаружение спама, подход hubs-and-authorities.
5. Frequent-itemset майнинг, включая ассоциативные правила, рыночные корзины, A-Priori алгоритм и его улучшения.
6. Алгоритмы кластеризации очень больших, многоразмерных массивов.
7. Две ключевых проблемы для веб-приложений: управление системами рекламы и рекомендаций.
8. Алгоритмы анализа и выявления структуры очень больших графов, в первую очередь – графов соцсетей.
9. Техники получения важных свойств больших наборов данных сокращением размерности, включая сингулярную декомпозицию и латентное семантическое индексирование.
10. Алгоритмы машинного обучения, применимые к очень большим данным, такие как персептроны, опорные векторы, градиентный спуск.

Похожие разделы