От издательства....15
Предисловие....16
О переводчике....19
Глава 1. Введение....20
Общий обзор статистического обучения....20
Данные о зарплатах....20
Данные по рынку акций....22
Данные об экспрессии генов....23
Краткая история статистического обучения....25
О книге....26
Для кого предназначена эта книга?....29
Обозначения и матричная алгебра по-простому....30
Структура книги....33
Используемые в лабораторных работах и упражнениях наборы данных....34
Источники....36
Сайт книги....36
Глава 2. Статистическое обучение....37
2.1 Что такое статистическое обучение?....37
2.1.1 Зачем нужно оценивать f?....39
2.1.2 Как оценивать f?....43
2.1.3 Компромисс между точностью предсказаний и интерпретируемостью модели....47
2.1.4 Обучение с учителем и без учителя....50
2.1.5 Регрессия против классификации....52
2.2 Оценка точности модели....53
2.2.1 Оценка качества подгонки....53
2.2.2 Компромисс между смещением и дисперсией....59
2.2.3 Задачи классификации....62
2.3 Лабораторная работа: введение в Python....69
2.3.1 Подготовка....69
2.3.2 Основные команды....70
2.3.3 Введение в числовой Python....71
2.3.4 Графика....81
2.3.5 Последовательности и срезы....88
2.3.6 Индексирование данных....90
2.3.7 Загрузка данных....94
2.3.8 Циклы for....101
2.3.9 Дополнение про графики и числа....103
2.4 Упражнения....110
Теоретические....110
Практические....112
Глава 3. Линейная регрессия....116
3.1 Простая линейная регрессия....117
3.1.1 Оценка коэффициентов....118
3.1.2 Определение точности оценки коэффициентов....121
3.1.3 Определение точности оценки модели....127
3.2 Множественная линейная регрессия....130
3.2.1 Оценка регрессионных коэффициентов....131
3.2.2 Важные вопросы....134
3.3 Прочие факторы регрессионного моделирования....143
3.3.1 Качественные предикторы....143
3.3.2 Расширения линейной модели....148
3.3.3 Возможные проблемы....155
3.4 Маркетинговый план....167
3.5 Сравнение линейной регрессии и классификатора k-ближайших соседей....169
3.6 Лабораторная работа: линейная регрессия....175
3.6.1 Импорт библиотек....175
3.6.2 Простая линейная регрессия....177
3.6.3 Множественная линейная регрессия....186
3.6.4 Прелести многомерной подгонки....187
3.6.5 Эффекты взаимодействия....189
3.6.6 Нелинейные преобразования предикторов....189
3.6.7 Качественные предикторы....191
3.7 Упражнения....193
Теоретические....193
Практические....195
Глава 4. Классификация....202
4.1 Введение в классификацию....203
4.2 Почему не линейная регрессия?....204
4.3 Логистическая регрессия....206
4.3.1 Логистическая модель....207
4.3.2 Оценивание регрессионных коэффициентов....209
4.3.3 Предсказание....211
4.3.4 Множественная логистическая регрессия....212
4.3.5 Мультиномиальная логистическая регрессия....215
4.4 Обобщенные модели для классификации....216
4.4.1 Линейный дискриминантный анализ для p = 1....218
4.4.2 Линейный дискриминантный анализ для p > 1....221
4.4.3 Квадратичный дискриминантный анализ....230
4.4.4 Наивный байесовский классификатор....232
4.5 Сравнение методов классификации....237
4.5.1 Аналитическое сравнение....237
4.5.2 Практическое сравнение....241
4.6 Обобщенные линейные модели....245
4.6.1 Применение линейной регрессии к набору данных Bikeshare....245
4.6.2 Пуассоновская регрессия на наборе данных Bikeshare....248
4.6.3 Применимость обобщенных линейных моделей....252
4.7 Лабораторная работа: логистическая регрессия, LDA, QDA и KNN....253
4.7.1 Набор данных Smarket....253
4.7.2 Логистическая регрессия....255
4.7.3 Линейный дискриминантный анализ....262
4.7.4 Квадратичный дискриминантный анализ....265
4.7.5 Наивный байесовский классификатор....267
4.7.6 Классификатор k-ближайших соседей....269
4.7.7 Линейная и пуассоновская регрессия с набором данных Bikeshare....277
4.8 Упражнения....284
Теоретические....284
Практические....288
Глава 5. Методы повторной выборки....292
5.1 Перекрестная проверка....293
5.1.1 Метод проверочной выборки....293
5.1.2 Перекрестная проверка по отдельным наблюдениям....296
5.1.3 k-кратная перекрестная проверка....298
5.1.4 Компромисс между смещением и дисперсией применительно к k-кратной перекрестной проверке....301
5.1.5 Перекрестная проверка при решении задач классификации....302
5.2 Бутстреп....305
5.3 Лабораторная работа: перекрестная проверка и бутстреп....309
5.3.1 Метод проверочной выборки....310
5.3.2 Перекрестная проверка....313
5.3.3 Бутстреп....316
5.4 Упражнения....322
Теоретические ....322
Практические....323
Глава 6. Отбор и регуляризация линейных моделей....328
6.1 Отбор подмножества переменных....330
6.1.1 Отбор оптимального подмножества переменных....330
6.1.2 Пошаговый отбор....333
6.1.3 Выбор оптимальной модели....337
6.2 Методы сжатия....343
6.2.1 Гребневая регрессия....343
6.2.2 Лассо....348
6.2.3 Выбор гиперпараметра....358
6.3 Методы снижения размерности....360
6.3.1 Метод главных компонент....361
6.3.2 Метод частных наименьших квадратов....369
6.4 Размышляя о большой размерности....371
6.4.1 Данные большой размерности....371
6.4.2 Что не так с данными большой размерности?....372
6.4.3 Регрессия в условиях большой размерности....375
6.4.4 Интерпретация результатов в задачах большой размерности....376
6.5 Лабораторная работа: линейные модели и методы регуляризации....378
6.5.1 Методы отбора подмножеств переменных....379
6.5.2 Гребневая регрессия и лассо....388
6.5.3 Регрессия PCR и PLS....401
6.6 Упражнения....405
Теоретические....405
Практические....409
Глава 7. Выходим за рамки линейности....412
7.1 Полиномиальная регрессия....413
7.2 Ступенчатые функции....415
7.3 Базисные функции....418
7.4 Регрессионные сплайны....418
7.4.1 Кусочно-полиномиальная регрессия....418
7.4.2 Ограничения и сплайны....419
7.4.3 Представление сплайнов с помощью базисных функций....421
7.4.4 Выбор количества и расположения узлов....423
7.4.5 Сравнение с полиномиальной регрессией....425
7.5 Сглаживающие сплайны....426
7.5.1 Введение в сглаживающие сплайны....426
7.5.2 Выбор сглаживающего параметра λ....428
7.6 Локальная регрессия....430
7.7 Обобщенные аддитивные модели....433
7.7.1 GAM для регрессионных задач....433
7.7.2 GAM для задач классификации....437
7.8 Лабораторная работа: нелинейные модели....439
7.8.1 Полиномиальная регрессия и ступенчатые функции....439
7.8.2 Сплайны....447
7.8.3 Сглаживающие сплайны и GAM....451
7.8.4 Локальная регрессия....467
7.9 Упражнения....468
Теоретические....468
Практические....470
Глава 8. Методы на основе деревьев решений....474
8.1 Основы деревьев решений....474
8.1.1 Регрессионные деревья....475
8.1.2 Деревья классификации....483
8.1.3 Деревья против линейных моделей....486
8.1.4 Преимущества и недостатки деревьев....488
8.2 Бэггинг, случайные леса, бустинг и байесовские аддитивные регрессионные деревья....488
8.2.1 Бэггинг....489
8.2.2 Случайные леса....493
8.2.3 Бустинг....495
8.2.4 Байесовские аддитивные регрессионные деревья....498
8.2.5 Краткий вывод по ансамблевым методам, основанным на деревьях....502
8.3 Лабораторная работа: методы на основе деревьев....503
8.3.1 Построение деревьев классификации....503
8.3.2 Построение регрессионных деревьев....510
8.3.3 Бэггинг и случайный лес....512
8.3.4 Бустинг....515
8.3.5 Байесовские аддитивные регрессионные деревья....517
8.4 Упражнения....518
Теоретические....518
Практические....520
Глава 9. Метод опорных векторов....523
9.1 Классификатор с максимальным зазором....524
9.1.1 Что такое гиперплоскость?....524
9.1.2 Классификация с использованием разделяющей гиперплоскости....525
9.1.3 Классификатор с максимальным зазором....527
9.1.4 Построение классификатора с максимальным зазором....529
9.1.5 Случай с несуществующей разделяющей гиперплоскостью....530
9.2 Классификаторы на опорных векторах....531
9.2.1 Введение в классификаторы на опорных векторах....531
9.2.2 Детали работы классификатора на опорных векторах....533
9.3 Метод опорных векторов....536
9.3.1 Классификация с использованием нелинейных решающих границ....536
9.3.2 Метод опорных векторов....538
9.3.3 Применение к данным о сердечных заболеваниях....542
9.4 SVM для случаев с несколькими классами....544
9.4.1 Классификация «один против одного»....544
9.4.2 Классификация «один против всех»....544
9.5 Связь с логистической регрессией....545
9.6 Лабораторная работа: метод опорных векторов....548
9.6.1 Классификатор на опорных векторах....548
9.6.2 Метод опорных векторов....556
9.6.3 ROC-кривые....561
9.6.4 SVM с несколькими классами....564
9.6.5 Применение на примере данных об экспрессии генов....566
9.7 Упражнения....568
Теоретические....568
Практические....569
Глава 10. Глубокое обучение....573
10.1 Однослойные нейронные сети....574
10.2 Многослойные нейронные сети....577
10.3 Сверточные нейронные сети....582
10.3.1 Сверточные слои....584
10.3.2 Пулинговые слои....587
10.3.3 Архитектура сверточной нейронной сети....587
10.3.4 Аугментация данных....589
10.3.5 Результаты использования обученного классификатора....590
10.4 Классификация документов....591
10.5 Рекуррентные нейронные сети....595
10.5.1 Последовательные модели для классификации документов....598
10.5.2 Прогнозирование временных рядов....601
10.5.3 Резюме по рекуррентным нейронным сетям....605
10.6 Когда нужно использовать глубокое обучение....606
10.7 Обучение нейронных сетей....609
10.7.1 Обратное распространение....611
10.7.2 Регуляризация и стохастический градиентный спуск....612
10.7.3 Метод прореживания....613
10.7.4 Настройка нейронной сети....615
10.8 Интерполяция и двойной спуск....615
10.9 Лабораторная работа: глубокое обучение....620
10.9.1 Однослойная нейронная сеть на наборе данных Hitters....623
10.9.2 Многослойная нейронная сеть на наборе данных MNIST....633
10.9.3 Сверточные нейронные сети....639
10.9.4 Использование предварительно обученных сверточных моделей....645
10.9.5 Классификация документов IMDB....648
10.9.6 Рекуррентные нейронные сети....654
10.10 Упражнения....664
Теоретические....664
Практические....665
Глава 11. Анализ выживаемости и цензурированные данные....667
11.1 Время выживаемости и цензурированное время....668
11.2 Понятие цензурирования....669
11.3 Кривая выживаемости по методу Каплана–Мейера....670
11.4 Логарифмический ранговый тест....673
11.5 Регрессионные модели с откликом о выживаемости....676
11.5.1 Функция риска....676
11.5.2 Пропорциональные риски....679
11.5.3 Пример: набор данных BrainCancer....682
11.5.4 Пример: набор данных Publication....683
11.6 Сжатие модели пропорциональных рисков Кокса....686
11.7 Дополнительные темы....688
11.7.1 Значение площади под кривой для анализа выживаемости....688
11.7.2 Выбор временной шкалы....689
11.7.3 Предикторы, зависящие от времени....690
11.7.4 Проверка предположения о пропорциональных рисках....691
11.7.5 Деревья выживаемости....691
11.8 Лабораторная работа: анализ выживаемости....691
11.8.1 Набор данных BrainCancer....692
11.8.2 Набор данных Publication....699
11.8.3 Данные кол-центра....701
11.9 Упражнения....708
Теоретические....708
Практические....711
Глава 12. Методы обучения без учителя....713
12.1 Сложности, связанные с обучением без учителя....713
12.2 Анализ главных компонент....714
12.2.1 Что такое главные компоненты?....715
12.2.2 Другая интерпретация главных компонент....720
12.2.3 Доля объясненной дисперсии....722
12.2.4 Подробности анализа главных компонент....724
12.2.5 Другое применение главных компонент....727
12.3 Пропущенные значения и заполнение матрицы....727
12.4 Методы кластеризации....733
12.4.1 Кластеризация по методу k-средних....735
12.4.2 Иерархическая кластеризация....739
12.4.3 Практические сложности при применении кластеризации....749
12.5 Лабораторная работа: обучение без учителя....751
12.5.1 Анализ главных компонент....752
12.5.2 Заполнение матрицы....758
12.5.3 Кластеризация....762
12.5.4 Пример с набором данных NCI60....772
12.6 Упражнения....780
Теоретические....780
Практические....782
Глава 13. Множественная проверка гипотез....786
13.1 Краткий обзор проверки гипотез....787
13.1.1 Проверка гипотезы....788
13.1.2 Ошибки I и II рода....792
13.2 Трудности множественной проверки гипотез....794
13.3 Групповая вероятность ошибки....796
13.3.1 Что такое групповая вероятность ошибки....796
13.3.2 Способы контроля групповой вероятности ошибки....798
13.3.3 Компромисс между групповой вероятностью ошибки и мощностью....805
13.4 Ожидаемая доля ложных отклонений гипотез....806
13.4.1 Представление ожидаемой доли ложных отклонений гипотез....806
13.4.2 Метод Бенджамини–Хохберга....808
13.5 Метод повторной выборки применительно к p-значениям и ожидаемой доле ложных отклонений гипотез....811
13.5.1 Метод повторной выборки для p-значений....812
13.5.2 Метод повторной выборки для ожидаемой доли ложных отклонений гипотез....815
13.5.3 Когда бывают полезны методы повторной выборки?....818
13.6 Лабораторная работа: множественная проверка гипотез....819
13.6.1 Обзор проверки гипотез....819
13.6.2 Групповая вероятность ошибки....821
13.6.3 Ожидаемая доля ложных отклонений гипотез....825
13.6.4 Метод повторной выборки....828
13.7 Упражнения....832
Теоретические....832
Практические....834
Предметный указатель....837
Пустая страница....1
Книга доступным для восприятия языком описывает все разнообразие форм статистического обучения – полезного инструментария для извлечения выводов из огромных наборов данных, появившихся в последние 20 лет в самых разных областях науки. В дополнение к линейной регрессии описываются многие из наиболее значимых на сегодняшний день подходов в статистике и машинном обучении, включая методы повторной выборки, разреженные методы классификации и регрессии, обобщенные аддитивные модели, методы на основе деревьев, машины опорных векторов, глубокое обучение, анализ выживаемости или надежности, кластеризацию и множественную проверку гипотез. Повествование в книге обогащается примерами из реальной жизни.Книга предназначена не только для опытных специалистов в области статистики, но и для тех, кто желает попробовать применить продвинутые техники статистического обучения при анализе своих данных.
Авторы этой книги принимали участие в написании ее первого издания («Введение в статистическое обучение с примерами на языке R»), которое по праву считается одним из лучших учебников в области статистики по всему миру и важнейшим справочником для специалистов в области науки о данных. Ключом к успеху книги стало то, что в каждой ее главе была приведена подробная инструкция по реализации описанных подходов на языке R. Однако в последние годы лидирующие позиции в области науки о данных прочно закрепились за языком Python, и все чаще ощущалась необходимость в соответствующем обновлении книги. И сейчас вы держите в руках книгу, вобравшую в себя все лучшее из первой книги, но полностью адаптированную под язык Python.
Даниэла Уиттон является специалистом в области биостатистики и занимает должность ассистента в университете Вашингтона. Ее исследовательская работа в основном посвящена применению методов машинного обучения для анализа многомерных данных. Благодаря ее вкладу, методы машинного обучения стали более широко применяться в геномных исследованиях.
Тревор Хасти и Роберт Тибширани являются профессорами статистики в Стэнфордском Университете, соавторами популярной книги «Элементы статистического обучения» и создателями обобщенных аддитивных моделей. Проф. Хасти внес также большой вклад в разработку статистического программного обеспечения на языках R и S-PLUS и создал методы «главных кривых» и «главных поверхностей». Проф. Тибширани предложил метод лассо и является одним из авторов популярной книги «Введение в бутстреп».