Оглавление....6
Об авторах....14
Предисловие....16
Условные обозначения, принятые в книге....16
Использование примеров кода....17
Благодарности....17
Комментарии переводчика....18
Глава 1. Разведывательный анализ данных....20
Элементы структурированных данных....21
Дополнительные материалы для чтения....23
Прямоугольные данные....24
Кадры данных и индексы....25
Непрямоугольные структуры данных....26
Дополнительные материалы для чтения....27
Оценки центрального положения....27
Среднее....28
Медиана и робастные оценки....30
Выбросы....30
Пример: средние оценки численности населения и уровня убийств....31
Дополнительные материалы для чтения....33
Оценки вариабельности....33
Стандартное отклонение и связанные с ним оценки....34
Оценки на основе процентилей....36
Пример: оценки вариабельности населения штатов....37
Дополнительные материалы для чтения....38
Разведывание распределения данных....39
Процентили и коробчатые диаграммы....39
Частотные таблицы и гистограммы....41
Графики и оценки плотности....43
Дополнительные материалы для чтения....45
Разведывание двоичных и категориальных данных....45
Мода....47
Ожидаемое значение....48
Вероятность....48
Дополнительные материалы для чтения....49
Корреляция....49
Диаграммы рассеяния....53
Дополнительные материалы для чтения....54
Разведывание двух или более переменных....54
Сетка из шестиугольных корзин и контуры (сопоставление числовых данных с числовыми данными на графике)....55
Две категориальные переменные....58
Категориальные и числовые данные....59
Визуализация многочисленных переменных....61
Дополнительные материалы для чтения....63
Резюме....64
Глава 2. Распределение данных и распределение выборок....66
Случайный отбор и смещенная выборка....67
Смещение....69
Случайный отбор....70
Размер против качества: когда размер имеет значение?....71
Выборочное среднее против популяционного среднего....72
Дополнительные материалы для чтения....72
Систематическая ошибка отбора....73
Регрессия к среднему....74
Дополнительные материалы для чтения....76
Выборочное распределение статистической величины....76
Центральная предельная теорема....79
Стандартная ошибка....80
Дополнительные материалы для чтения....81
Бутстрап....81
Повторный отбор против бутстрапирования....85
Дополнительные материалы для чтения....85
Доверительные интервалы....85
Дополнительные материалы для чтения....88
Нормальное распределение....88
Стандартное нормальное распределение и квантиль-квантильные графики....90
Длиннохвостые распределения....92
Дополнительные материалы для чтения....94
t-Распределение Стьюдента....94
Дополнительные материалы для чтения....96
Биномиальное распределение....96
Дополнительные материалы для чтения....99
Распределение хи-квадрат....99
Дополнительные материалы для чтения....100
F-распредел ение....100
Дополнительные материалы для чтения....101
Распределение Пуассона и другие связанные с ним распределения....101
Пуассоновские распределения....102
Экспоненциальное распределение....102
Оценивание интенсивности отказов....103
Распределение Вейбулла....103
Дополнительные материалы для чтения....104
Резюме....105
Глава 3. Статистические эксперименты и проверка значимости....106
A/B-тестирование....106
Зачем нужна контрольная группа?....109
Почему только A/В? Почему не С, £>...?....110
Дополнительные материалы для чтения....111
Проверки гипотез....111
Нулевая гипотеза....113
Альтернативная гипотеза....113
Односторонняя проверка гипотезы против двухсторонней....114
Дополнительные материалы для чтения....115
Повторный отбор....115
Перестановочный тест....116
Пример: прилипчивость веб-страниц....116
Исчерпывающий и бутстраповский перестановочные тесты....120
Перестановочные тесты: сухой остаток для науки о данных....120
Дополнительные материалы для чтения....121
Статистическая значимость и р-значения....121
р-Значение....124
Альфа....125
Разногласия по поводу р-значения....125
Практическая значимость....126
Ошибки 1 -го и 2-го рода....126
Наука о данных и р-значения....127
Дополнительные материалы для чтения....127
Проверки на основе /-статистики....128
Дополнительные материалы для чтения....130
Множественное тестирование....130
Дополнительные материалы для чтения....133
Степени свободы....134
Дополнительные материалы для чтения....135
Дисперсионный анализ....135
F-статистика....139
Двухсторонний дисперсионный анализ....140
Дополнительные материалы для чтения....141
Проверка на основе статистики хи-квадрат....141
Проверка хи-квадрат: подход на основе повторного отбора....142
Проверка хи-квадрат: статистическая теория....144
Точный тест Фишера....145
Релевантность для науки о данных....147
Дополнительные материалы для чтения....148
Алгоритм многорукого бандита....148
Дополнительные материалы для чтения....151
Мощность и размер выборки....152
Размер выборки....153
Дополнительные материалы для чтения....156
Резюме....156
Глава 4. Регрессия и предсказание....158
Простая линейная регрессия....158
Уравнение регрессии....159
Подогнанные значения и остатки....162
Наименьшие квадраты....163
Предсказание против объяснения (профилирование)....164
Дополнительные материалы для чтения....165
Множественная линейная регрессия....165
Пример: данные жилого фонда округа Кинг....166
Оценивание результативности модели....168
Перекрестный конроль....170
Отбор модели и пошаговая регрессия....171
Взвешенная регрессия....174
Дополнительные материалы для чтения....176
Предсказание с использованием регрессии....176
Опасности экстраполяции....176
Доверительный и предсказательный интервалы....177
Факторные переменные в регрессии....179
Представление фиктивных переменных....179
Факторные переменные с многочисленными уровнями....182
Упорядоченные факторные переменные....184
Интерпретирование уравнения регрессии....185
Коррелированные предсказатели....186
Мультиколлинеарность....187
Искажающие переменные....188
Взаимодействия и главные эффекты....189
Диагностика регрессии....191
Выбросы....192
Влиятельные значения....194
Гетероскедастичность, ненормальность и коррелированные ошибки....197
Графики частных остатков и нелинейность....200
Многочленная и сплайновая регрессия....202
Многочлены....203
Сплайны....204
Обобщенные аддитивные модели....207
Дополнительные материалы для чтения....208
Резюме....209
Глава 5. Классификация....210
Наивный Байес....211
Почему точная байесова классификация непрактична?....212
Наивное решение....212
Числовые предсказательные переменные....215
Дополнительные материалы для чтения....216
Дискриминантный анализ....216
Матрица ковариаций....217
Линейный дискриминант Фишера....218
Простой пример....218
Дополнительные материалы для чтения....222
Логистическая регрессия....222
Функция логистического отклика и логит....223
Логистическая регрессия и ОЛМ....224
Обобщенные линейные модели....226
Предсказанные значения из логистической регрессии....226
Интерпретирование коэффициентов и отношений перевесов....227
Линейная и логистическая регрессия: сходства и различия....229
Подгонка модели....229
Оценивание результативности модели....230
Анализ остатков....232
Дополнительные материалы для чтения....233
Оценивание классификационных моделей....234
Матрица путаницы....235
Проблема редкого класса....237
Прецизионность, полнота и специфичность....237
ROC-кривая....239
Площадь под ROC-кривой....241
Лифт....242
Дополнительные материалы для чтения....244
Стратегии для несбалансированных данных....244
Понижающий отбор....245
Повышающий отбор и повышающая/понижающая перевесовка....246
Генерация данных....247
Стоимостная классификация....248
Разведывание предсказаний....248
Дополнительные материалы для чтения....250
Резюме....250
Глава 6. Статистическое машинное обучение....252
k ближайших соседей....253
Небольшой пример: предсказание невыплаты ссуды....254
Метрики расстояния....256
Кодировщик с одним активным состоянием....257
Стандартизация (нормализация, z-оценки)....258
Выбор числам....261
k ближайших соседей как механизм порождения признаков....262
Древесные модели....264
Простой пример....265
Алгоритм рекурсивного подразделения....268
Измерение однородности или загрязненности....269
Остановка выращивания дерева....271
Контроль за сложностью дерева в R....271
Контроль за сложностью дерева в Python....272
Предсказывание непрерывного значения....272
Каким образом используются деревья....273
Дополнительные материалы для чтения....274
Бэггинг и случайный лес....274
Бэггинг....275
Случайный лес....276
Важность переменных....280
Гиперпараметры....283
Бустинг....284
Алгоритм бустирования....286
XGBoost....287
Регуляризация: предотвращение переподгонки....289
Гиперпараметры и перекрестный контроль....293
Резюме....297
Глава 7. Неконтролируемое самообучение....298
Анализ главных компонент....299
Простой пример....300
Вычисление главных компонент....302
Интерпретирование главных компонент....303
Анализ соответствия....306
Дополнительные материалы для чтения....308
Кластеризация на основе К средних....308
Простой пример....309
Алгоритм К средних....311
Интерпретирование кластеров....312
Выбор числа кластеров....314
Иерархическая кластеризация....316
Простой пример....317
Дендограмма....318
Агломератов ный алгоритм....319
Меры несхожести....320
Модельно-ориентированная кластеризация....322
Многомерное нормальное распределение....322
Смеси нормальных распределений....323
Выбор числа кластеров....326
Дополнительные материалы для чтения....328
Шкалирование и категориальные переменные....329
Шкалирование переменных....329
Доминантные переменные....331
Категориальные данные и расстояние Говера....333
Проблемы кластеризации смешанных данных....335
Резюме....337
Библиография....338
Предметный указатель....340
Книга рассчитана на специалистов в области Data Science, обладающих некоторым опытом работы с языком программирования R и имеющих предварительное понятие о математической статистике. В ней в удобной и легкодоступной форме представлены ключевые понятия из статистики, которые относятся к науке о данных, а также объяснено, какие понятия важны и полезны с точки зрения науки о данных, какие менее важны, и почему. Подробно раскрыты темы: разведочный анализ данных, распределения данных и выборок, статистические эксперименты и проверка значимости, регрессия и предсказание, классификация, статистическое машинное обучение и обучение без учителя. Во второе издание включены примеры на языке Python, что расширяет практическое применение книги.