Классификация, регрессия и другие алгоритмы Data Mining с использованием R

Классификация, регрессия и другие алгоритмы Data Mining с использованием R

Классификация, регрессия и другие алгоритмы Data Mining с использованием R
Автор: Мастицкий Сергей Эдуардович, Шитиков Владимир Кириллович
Дата выхода: 2017
Издательство: Самиздат
Количество страниц: 351
Размер файла: 5.7 MB
Тип файла: PDF
Добавил: codelibs
 Проверить на вирусы

 1.РЕАЛИЗАЦИЯ МОДЕЛЕЙ DATA MINING В СРЕДЕ R (ВМЕСТО ПРЕДИСЛОВИЯ)....6

1.1.Data Mining как направление анализа данных....6

1.2.Статистическая среда R и ее использование в Data Mining....15

1.3.О чем эта книга и чего в ней нет....19

2.СТАТИСТИЧЕСКИЕ МОДЕЛИ: КРИТЕРИИ И МЕТОДЫ ИХ ОЦЕНИВАНИЯ....24

2.1.Основные шаги построения и верификации моделей....24

2.2.Использование алгоритмов ресэмплинга для тестирования и оптимизации параметров моделей....33

2.3.Модели для предсказания класса объектов....39

2.4.Проецирование многомерных данных на плоскости....47

2.5.Многомерный статистический анализ данных....51

2.6.Методы кластеризации....54

3.ПАКЕТ СARET - ИНСТРУМЕНТ ПОСТРОЕНИЯ СТАТИСТИЧЕСКИХ МОДЕЛЕЙ В R....60

3.1.Универсальный интерфейс доступа к функциям машинного обучения в пакете caret....60

3.2.Обнаружение и удаление "ненужных" предикторов....62

3.3.Предварительная обработка данных: преобразование и групповая трансформация переменных....66

3.4.Заполнение пропущенных значений в данных....73

3.5.Функция train() пакета caret....80

4.ПОСТРОЕНИЕ РЕГРЕССИОННЫХ МОДЕЛЕЙ РАЗЛИЧНОГО ТИПА....88

4.1.Селекция оптимального набора предикторов линейной модели....88

4.2.Регуляризация, частные наименьшие квадраты и kNN-регрессия....96

4.3.Построение деревьев регрессии....103

4.4.Ансамбли моделей: бэггинг, случайный лес, бустинг....113

4.5.Сравнение построенных моделей и оценка информативности предикторов....122

4.6.Деревья регрессии с многомерным откликом....127

5.БИНАРНЫЕ МАТРИЦЫ И АССОЦИАТИВНЫЕ ПРАВИЛА....134

5.1.Классификация в бинарных пространствах с использованием классических моделей....134

5.2.Бинарные деревья решений....141

5.3.Поиск логических закономерностей в данных....144

5.4.Алгоритмы выделения ассоциативных правил....148

5.5.Анализ последовательностей знаков или событий....155

6.БИНАРНЫЕ КЛАССИФИКАТОРЫ С РАЗЛИЧНЫМИ РАЗДЕЛЯЮЩИМИ ПОВЕРХНОСТЯМИ....165

6.1.Дискриминантный анализ....165

6.2.Метод опорных векторов....171

6.3.Ядерные функции машины опорных векторов....175

6.4.Деревья классификации, случайный лес и логистическая регрессия....181

6.5.Процедуры сравнения эффективности моделей классификации....184

7.МОДЕЛИ КЛАССИФИКАЦИИ ДЛЯ НЕСКОЛЬКИХ КЛАССОВ....191

7.1.Ирисы Фишера и метод k-ближайших соседей....191

7.2.Наивный классификатор Байеса....196

7.3.Классификация в линейном дискриминантном пространстве....199

7.4.Нелинейные классификаторы в R....203

7.5.Модель мультиномиального логита....208

7.6.Классификаторы на основе искусственных нейронных сетей....210

8.МОДЕЛИРОВАНИЕ ПОРЯДКОВЫХ И СЧЕТНЫХ ПЕРЕМЕННЫХ....216

8.1.Модель логита для порядковой переменной....216

8.2.Настройка параметров нейронных сетей средствами пакета caret....223

8.3.Методы комплексации модельных прогнозов....226

8.4.Обобщенные линейные модели для счетных данных....232

8.5.ZIP- и барьерные модели счетных данных....241

9.МЕТОДЫ МНОГОМЕРНОЙ ОРДИНАЦИИ....247

9.1.Преобразование данных и вычисление матрицы расстояний....247

9.2.Непараметрический дисперсионный анализ матриц дистанций....251

9.3.Методы ординации объектов и переменных: построение и сравнение диаграмм....255

9.4.Оценка связи ординации с внешними факторами....263

9.5.Неметрическое многомерное шкалирование и построение распределения чувствительности видов....269

10.КЛАСТЕРНЫЙ АНАЛИЗ....277

10.1.Алгоритмы кластеризации, основанные на разделении....277

10.2.Иерархическая кластеризация....284

10.3.Оценка качества кластеризации....290

10.4.Другие алгоритмы кластеризации....295

10.5.Самоорганизующиеся карты Кохонена....304

11.RATTLE: ГРАФИЧЕСКИЙ ИНТЕРФЕЙС R ДЛЯ РЕАЛИЗАЦИИ АЛГОРИТМОВ DATA MINING....312

11.1. Начало работы с пакетом rattle....312

11.2. Описательная статистика и визуализация данных....313

11.3. Построение и тестирование моделей классификации....316

11.4. Дескриптивные модели (обучение без учителя)....322

Список рекомендуемой литературы....327

ПРИЛОЖЕНИЕ.R: Справочная карта по Data Mining (Y. Zhao)....334

Описана широкая совокупность методов построения статистических моделей классификации и регрессии для откликов, измеренных в альтернативной, категориальной и метрической шкалах. Подробно рассматриваются деревья решений, машины опорных векторов с различными разделяющими поверхностями, нелинейные формы дискриминантного анализа, искусственные нейронные сети и т.д. Показана технология применения таких методов бутстреп-агрегирования деревьев решений, как бэггинг, случайный лес и бустинг. Представлены различные методы построения ансамблей моделей для коллективного прогнозирования.


Похожее:

Список отзывов:

Нет отзывов к книге.