1.РЕАЛИЗАЦИЯ МОДЕЛЕЙ DATA MINING В СРЕДЕ R (ВМЕСТО ПРЕДИСЛОВИЯ)....6
1.1.Data Mining как направление анализа данных....6
1.2.Статистическая среда R и ее использование в Data Mining....15
1.3.О чем эта книга и чего в ней нет....19
2.СТАТИСТИЧЕСКИЕ МОДЕЛИ: КРИТЕРИИ И МЕТОДЫ ИХ ОЦЕНИВАНИЯ....24
2.1.Основные шаги построения и верификации моделей....24
2.2.Использование алгоритмов ресэмплинга для тестирования и оптимизации параметров моделей....33
2.3.Модели для предсказания класса объектов....39
2.4.Проецирование многомерных данных на плоскости....47
2.5.Многомерный статистический анализ данных....51
2.6.Методы кластеризации....54
3.ПАКЕТ СARET - ИНСТРУМЕНТ ПОСТРОЕНИЯ СТАТИСТИЧЕСКИХ МОДЕЛЕЙ В R....60
3.1.Универсальный интерфейс доступа к функциям машинного обучения в пакете caret....60
3.2.Обнаружение и удаление "ненужных" предикторов....62
3.3.Предварительная обработка данных: преобразование и групповая трансформация переменных....66
3.4.Заполнение пропущенных значений в данных....73
3.5.Функция train() пакета caret....80
4.ПОСТРОЕНИЕ РЕГРЕССИОННЫХ МОДЕЛЕЙ РАЗЛИЧНОГО ТИПА....88
4.1.Селекция оптимального набора предикторов линейной модели....88
4.2.Регуляризация, частные наименьшие квадраты и kNN-регрессия....96
4.3.Построение деревьев регрессии....103
4.4.Ансамбли моделей: бэггинг, случайный лес, бустинг....113
4.5.Сравнение построенных моделей и оценка информативности предикторов....122
4.6.Деревья регрессии с многомерным откликом....127
5.БИНАРНЫЕ МАТРИЦЫ И АССОЦИАТИВНЫЕ ПРАВИЛА....134
5.1.Классификация в бинарных пространствах с использованием классических моделей....134
5.2.Бинарные деревья решений....141
5.3.Поиск логических закономерностей в данных....144
5.4.Алгоритмы выделения ассоциативных правил....148
5.5.Анализ последовательностей знаков или событий....155
6.БИНАРНЫЕ КЛАССИФИКАТОРЫ С РАЗЛИЧНЫМИ РАЗДЕЛЯЮЩИМИ ПОВЕРХНОСТЯМИ....165
6.1.Дискриминантный анализ....165
6.2.Метод опорных векторов....171
6.3.Ядерные функции машины опорных векторов....175
6.4.Деревья классификации, случайный лес и логистическая регрессия....181
6.5.Процедуры сравнения эффективности моделей классификации....184
7.МОДЕЛИ КЛАССИФИКАЦИИ ДЛЯ НЕСКОЛЬКИХ КЛАССОВ....191
7.1.Ирисы Фишера и метод k-ближайших соседей....191
7.2.Наивный классификатор Байеса....196
7.3.Классификация в линейном дискриминантном пространстве....199
7.4.Нелинейные классификаторы в R....203
7.5.Модель мультиномиального логита....208
7.6.Классификаторы на основе искусственных нейронных сетей....210
8.МОДЕЛИРОВАНИЕ ПОРЯДКОВЫХ И СЧЕТНЫХ ПЕРЕМЕННЫХ....216
8.1.Модель логита для порядковой переменной....216
8.2.Настройка параметров нейронных сетей средствами пакета caret....223
8.3.Методы комплексации модельных прогнозов....226
8.4.Обобщенные линейные модели для счетных данных....232
8.5.ZIP- и барьерные модели счетных данных....241
9.МЕТОДЫ МНОГОМЕРНОЙ ОРДИНАЦИИ....247
9.1.Преобразование данных и вычисление матрицы расстояний....247
9.2.Непараметрический дисперсионный анализ матриц дистанций....251
9.3.Методы ординации объектов и переменных: построение и сравнение диаграмм....255
9.4.Оценка связи ординации с внешними факторами....263
9.5.Неметрическое многомерное шкалирование и построение распределения чувствительности видов....269
10.КЛАСТЕРНЫЙ АНАЛИЗ....277
10.1.Алгоритмы кластеризации, основанные на разделении....277
10.2.Иерархическая кластеризация....284
10.3.Оценка качества кластеризации....290
10.4.Другие алгоритмы кластеризации....295
10.5.Самоорганизующиеся карты Кохонена....304
11.RATTLE: ГРАФИЧЕСКИЙ ИНТЕРФЕЙС R ДЛЯ РЕАЛИЗАЦИИ АЛГОРИТМОВ DATA MINING....312
11.1. Начало работы с пакетом rattle....312
11.2. Описательная статистика и визуализация данных....313
11.3. Построение и тестирование моделей классификации....316
11.4. Дескриптивные модели (обучение без учителя)....322
Список рекомендуемой литературы....327
ПРИЛОЖЕНИЕ.R: Справочная карта по Data Mining (Y. Zhao)....334
Описана широкая совокупность методов построения статистических моделей классификации и регрессии для откликов, измеренных в альтернативной, категориальной и метрической шкалах. Подробно рассматриваются деревья решений, машины опорных векторов с различными разделяющими поверхностями, нелинейные формы дискриминантного анализа, искусственные нейронные сети и т.д. Показана технология применения таких методов бутстреп-агрегирования деревьев решений, как бэггинг, случайный лес и бустинг. Представлены различные методы построения ансамблей моделей для коллективного прогнозирования.