От издательства.......................................................................................................14
Предисловие.............................................................................................................15
О переводчике.........................................................................................................18 Глава 1.
Введение....................................................................................................19
Общий обзор статистического обучения................................................................19
Данные о зарплатах..............................................................................................19
Данные по рынку акций......................................................................................21
Данные об экспрессии генов..............................................................................22
Краткая история статистического обучения..........................................................24
О книге..........................................................................................................................25
Для кого предназначена эта книга?.........................................................................28
Обозначения и матричная алгебра по-простому..................................................29
Структура книги..........................................................................................................32
Используемые в лабораторных работах и упражнениях наборы данных.........33
Сайт книги....................................................................................................................35
Источники....................................................................................................................35
Глава 2. Статистическое обучение.....................................................................36
2.1 Что такое статистическое обучение?...........................................................36
2.1.1 Зачем нужно оценивать f ?................................................................38
2.1.2 Как оценивать f ?.................................................................................42
2.1.3 Компромисс между точностью предсказаний и интерпретируемостью модели...46
2.1.4 Обучение с учителем и без учителя................................................49
2.1.5 Регрессия против классификации...................................................51
2.2 Оценка точности модели...............................................................................52
2.2.1 Оценка качества подгонки................................................................52
2.2.2 Компромисс между смещением и дисперсией..............................58
2.2.3 Задачи классификации......................................................................61
2.3 Лабораторная работа: введение в Python....................................................68
2.3.1 Подготовка..........................................................................................68
2.3.2 Основные команды............................................................................69
2.3.3 Введение в числовой Python.............................................................70
2.3.4 Графика................................................................................................80
2.3.5 Последовательности и срезы............................................................87
2.3.6 Индексирование данных...................................................................89
2.3.7 Загрузка данных.................................................................................93
2.3.8 Циклы for...........................................................................................100
2.3.9 Дополнение про графики и числа..................................................102
2.4 Упражнения....................................................................................................109
Теоретические...............................................................................................109
Практические.................................................................................................111
Глава 3. Линейная регрессия.............................................................................115
3.1 Простая линейная регрессия.......................................................................116
3.1.1 Оценка коэффициентов..................................................................117
3.1.2 Определение точности оценки коэффициентов.........................120
3.1.3 Определение точности оценки модели........................................126
3.2 Множественная линейная регрессия.........................................................129
3.2.1 Оценка регрессионных коэффициентов......................................130
3.2.2 Важные вопросы...............................................................................133
3.3 Прочие факторы регрессионного моделирования..................................142
3.3.1 Качественные предикторы.............................................................142
3.3.2 Расширения линейной модели......................................................147
3.3.3 Возможные проблемы.....................................................................154
3.4 Маркетинговый план....................................................................................166
3.5 Сравнение линейной регрессии и классификатора k-ближайших соседей.........168
3.6 Лабораторная работа: линейная регрессия...............................................174
3.6.1 Импорт библиотек............................................................................174
3.6.2 Простая линейная регрессия..........................................................176
3.6.3 Множественная линейная регрессия............................................185
3.6.4 Прелести многомерной подгонки.................................................186
3.6.5 Эффекты взаимодействия...............................................................188
3.6.6 Нелинейные преобразования предикторов.................................188
3.6.7 Качественные предикторы.............................................................190
3.7 Упражнения....................................................................................................192
Теоретические...............................................................................................192
Практические.................................................................................................194
Глава 4. Классификация......................................................................................201
4.1 Введение в классификацию.........................................................................202
4.2 Почему не линейная регрессия?.................................................................203
4.3 Логистическая регрессия.............................................................................205
4.3.1 Логистическая модель.....................................................................206
4.3.2 Оценивание регрессионных коэффициентов..............................208
4.3.3 Предсказание....................................................................................210
4.3.4 Множественная логистическая регрессия....................................211
4.3.5 Мультиномиальная логистическая регрессия.............................214
4.4 Обобщенные модели для классификации.................................................215
4.4.1 Линейный дискриминантный анализ для p = 1...........................217
4.4.2 Линейный дискриминантный анализ для p > 1...........................220
4.4.3 Квадратичный дискриминантный анализ...................................229
4.4.4 Наивный байесовский классификатор..........................................231
4.5 Сравнение методов классификации..........................................................236
4.5.1 Аналитическое сравнение..............................................................236
4.5.2 Практическое сравнение.................................................................240
4.6 Обобщенные линейные модели..................................................................244
4.6.1 Применение линейной регрессии к набору данных Bikeshare....................244
4.6.2 Пуассоновская регрессия на наборе данных Bikeshare..............247
4.6.3 Применимость обобщенных линейных моделей........................251
4.7 Лабораторная работа: логистическая регрессия, LDA, QDA и KNN.......252
4.7.1 Набор данных Smarket.....................................................................252
4.7.2 Логистическая регрессия................................................................254
4.7.3 Линейный дискриминантный анализ...........................................261
4.7.4 Квадратичный дискриминантный анализ...................................264
4.7.5 Наивный байесовский классификатор..........................................266
4.7.6 Классификатор k-ближайших соседей..........................................268
4.7.7 Линейная и пуассоновская регрессия с набором данных Bikeshare...................276
4.8 Упражнения....................................................................................................283
Теоретические...............................................................................................283
Практические.................................................................................................287
Глава 5. Методы повторной выборки............................................................291
5.1 Перекрестная проверка................................................................................292
5.1.1 Метод проверочной выборки.........................................................292
5.1.2 Перекрестная проверка по отдельным наблюдениям................295
5.1.3 k-кратная перекрестная проверка.................................................297
5.1.4 Компромисс между смещением и дисперсией применительно к k-кратной перекрестной проверке................300
5.1.5 Перекрестная проверка при решении задач классификации................301
5.2 Бутстреп..........................................................................................................304
5.3 Лабораторная работа: перекрестная проверка и бутстреп.....................308
5.3.1 Метод проверочной выборки.........................................................309
5.3.2 Перекрестная проверка...................................................................312
5.3.3 Бутстреп.............................................................................................315
5.4 Упражнения....................................................................................................321
Теоретические...............................................................................................321
Практические.................................................................................................322
Глава 6. Отбор и регуляризация линейных моделей...............................327
6.1 Отбор подмножества переменных.............................................................329
6.1.1 Отбор оптимального подмножества переменных......................329
6.1.2 Пошаговый отбор.............................................................................332
6.1.3 Выбор оптимальной модели...........................................................336
6.2 Методы сжатия..............................................................................................342
6.2.1 Гребневая регрессия.........................................................................342
6.2.2 Лассо...................................................................................................347
6.2.3 Выбор гиперпараметра...................................................................357
6.3 Методы снижения размерности.................................................................359
6.3.1 Метод главных компонент..............................................................360
6.3.2 Метод частных наименьших квадратов.......................................368
6.4 Размышляя о большой размерности..........................................................370
6.4.1 Данные большой размерности.......................................................370
6.4.2 Что не так с данными большой размерности?.............................371
6.4.3 Регрессия в условиях большой размерности...............................374
6.4.4 Интерпретация результатов в задачах большой размерности......................................................................................375
6.5 Лабораторная работа: линейные модели и методы регуляризации.........377
6.5.1 Методы отбора подмножеств переменных..................................378
6.5.2 Гребневая регрессия и лассо...........................................................387
6.5.3 Регрессия PCR и PLS.........................................................................400
6.6 Упражнения....................................................................................................404
Теоретические...............................................................................................404
Практические.................................................................................................408
Глава 7. Выходим за рамки линейности........................................................411
7.1 Полиномиальная регрессия.........................................................................412
7.2 Ступенчатые функции..................................................................................414
7.3 Базисные функции........................................................................................417
7.4 Регрессионные сплайны...............................................................................417
7.4.1 Кусочно-полиномиальная регрессия............................................417
7.4.2 Ограничения и сплайны..................................................................418
7.4.3 Представление сплайнов с помощью базисных функций.........420
7.4.4 Выбор количества и расположения узлов.....................................422
7.4.5 Сравнение с полиномиальной регрессией...................................424
7.5 Сглаживающие сплайны..............................................................................425
7.5.1 Введение в сглаживающие сплайны..............................................425
7.5.2 Выбор сглаживающего параметра λ..............................................427
7.6 Локальная регрессия.....................................................................................429
7.7 Обобщенные аддитивные модели..............................................................432
7.7.1 GAM для регрессионных задач.......................................................432
7.7.2 GAM для задач классификации......................................................436
7.8 Лабораторная работа: нелинейные модели..............................................438
7.8.1 Полиномиальная регрессия и ступенчатые функции................438
7.8.2 Сплайны.............................................................................................446
7.8.3 Сглаживающие сплайны и GAM.....................................................450
7.8.4 Локальная регрессия........................................................................466
7.9 Упражнения....................................................................................................467
Теоретические...............................................................................................467
Практические.................................................................................................469
Глава 8. Методы на основе деревьев решений..........................................473
8.1 Основы деревьев решений..........................................................................473
8.1.1 Регрессионные деревья...................................................................474
8.1.2 Деревья классификации..................................................................482
8.1.3 Деревья против линейных моделей..............................................485
8.1.4 Преимущества и недостатки деревьев..........................................487
8.2 Бэггинг, случайные леса, бустинг и байесовские аддитивные регрессионные деревья...487
8.2.1 Бэггинг...............................................................................................488
8.2.2 Случайные леса.................................................................................492
8.2.3 Бустинг...............................................................................................494
8.2.4 Байесовские аддитивные регрессионные деревья......................497
8.2.5 Краткий вывод по ансамблевым методам, основанным на деревьях........501
8.3 Лабораторная работа: методы на основе деревьев..................................502
8.3.1 Построение деревьев классификации...........................................502
8.3.2 Построение регрессионных деревьев...........................................509
8.3.3 Бэггинг и случайный лес.................................................................511
8.3.4 Бустинг...............................................................................................514
8.3.5 Байесовские аддитивные регрессионные деревья......................516
8.4 Упражнения....................................................................................................517
Теоретические...............................................................................................517
Практические.................................................................................................519
Глава 9. Метод опорных векторов..................................................................522
9.1 Классификатор с максимальным зазором................................................523
9.1.1 Что такое гиперплоскость?.............................................................523
9.1.2 Классификация с использованием разделяющей гиперплоскости.............524
9.1.3 Классификатор с максимальным зазором...................................526
9.1.4 Построение классификатора с максимальным зазором............528
9.1.5 Случай с несуществующей разделяющей гиперплоскостью.....529
9.2 Классификаторы на опорных векторах.....................................................530
9.2.1 Введение в классификаторы на опорных векторах....................530
9.2.2 Детали работы классификатора на опорных векторах..............532
9.3 Метод опорных векторов.............................................................................535
9.3.1 Классификация с использованием нелинейных решающих границ...............535
9.3.2 Метод опорных векторов................................................................537
9.3.3 Применение к данным о сердечных заболеваниях....................541
9.4 SVM для случаев с несколькими классами................................................543
9.4.1 Классификация «один против одного».........................................543
9.4.2 Классификация «один против всех»..............................................543
9.5 Связь с логистической регрессией.............................................................544
9.6 Лабораторная работа: метод опорных векторов......................................547
9.6.1 Классификатор на опорных векторах...........................................547
9.6.2 Метод опорных векторов................................................................555
9.6.3 ROC-кривые.......................................................................................560
9.6.4 SVM с несколькими классами.........................................................563
9.6.5 Применение на примере данных об экспрессии генов..............................565
9.7 Упражнения....................................................................................................567
Теоретические...............................................................................................567
Практические.................................................................................................568
Глава 10. Глубокое обучение.............................................................................572
10.1 Однослойные нейронные сети....................................................................573
10.2 Многослойные нейронные сети..................................................................576
10.3 Сверточные нейронные сети.......................................................................581
10.3.1 Сверточные слои..............................................................................583
10.3.2 Пулинговые слои..............................................................................586
10.3.3 Архитектура сверточной нейронной сети....................................586
10.3.4 Аугментация данных.......................................................................588
10.3.5 Результаты использования обученного классификатора..........589
10.4 Классификация документов........................................................................590
10.5 Рекуррентные нейронные сети...................................................................594
10.5.1 Последовательные модели для классификации документов....597
10.5.2 Прогнозирование временных рядов.............................................600
10.5.3 Резюме по рекуррентным нейронным сетям..............................604
10.6 Когда нужно использовать глубокое обучение.........................................605
10.7 Обучение нейронных сетей.........................................................................608
10.7.1 Обратное распространение............................................................610
10.7.2 Регуляризация и стохастический градиентный спуск...............611
10.7.3 Метод прореживания.......................................................................612
10.7.4 Настройка нейронной сети.............................................................614
10.8 Интерполяция и двойной спуск..................................................................614
10.9 Лабораторная работа: глубокое обучение.................................................619
10.9.1 Однослойная нейронная сеть на наборе данных Hitters............622
10.9.2 Многослойная нейронная сеть на наборе данных MNIST.........632
10.9.3 Сверточные нейронные сети..........................................................638
10.9.4 Использование предварительно обученных сверточных моделей..............644
10.9.5 Классификация документов IMDB.................................................647
10.9.6 Рекуррентные нейронные сети......................................................653
10.10 Упражнения....................................................................................................663
Теоретические...............................................................................................663
Практические.................................................................................................664
Глава 11. Анализ выживаемости и цензурированные данные.............666
11.1 Время выживаемости и цензурированное время....................................667
11.2 Понятие цензурирования............................................................................668
11.3 Кривая выживаемости по методу Каплана–Мейера...............................669
11.4 Логарифмический ранговый тест...............................................................672
11.5 Регрессионные модели с откликом о выживаемости..............................675
11.5.1 Функция риска..................................................................................675
11.5.2 Пропорциональные риски..............................................................678
11.5.3 Пример: набор данных BrainCancer..............................................681
11.5.4 Пример: набор данных Publication................................................682
11.6 Сжатие модели пропорциональных рисков Кокса...................................685
11.7 Дополнительные темы.................................................................................687
11.7.1 Значение площади под кривой для анализа выживаемости.....687
11.7.2 Выбор временной шкалы................................................................688
11.7.3 Предикторы, зависящие от времени.............................................689
11.7.4 Проверка предположения о пропорциональных рисках...........690
11.7.5 Деревья выживаемости...................................................................690
11.8 Лабораторная работа: анализ выживаемости..........................................690
11.8.1 Набор данных BrainCancer..............................................................691
11.8.2 Набор данных Publication................................................................698
11.8.3 Данные кол-центра..........................................................................700
11.9 Упражнения....................................................................................................707
Теоретические...............................................................................................707
Практические.................................................................................................710
Глава 12. Методы обучения без учителя......................................................712
12.1 Сложности, связанные с обучением без учителя.....................................712
12.2 Анализ главных компонент.........................................................................713
12.2.1 Что такое главные компоненты?...................................................714
12.2.2 Другая интерпретация главных компонент.................................719
12.2.3 Доля объясненной дисперсии........................................................721
12.2.4 Подробности анализа главных компонент..................................723
12.2.5 Другое применение главных компонент......................................726
12.3 Пропущенные значения и заполнение матрицы.....................................726
12.4 Методы кластеризации................................................................................732
12.4.1 Кластеризация по методу k-средних.............................................734
12.4.2 Иерархическая кластеризация.......................................................738
12.4.3 Практические сложности при применении кластеризации......748
12.5 Лабораторная работа: обучение без учителя............................................750
12.5.1 Анализ главных компонент............................................................751
12.5.2 Заполнение матрицы.......................................................................757
12.5.3 Кластеризация..................................................................................761
12.5.4 Пример с набором данных NCI60..................................................771
12.6 Упражнения....................................................................................................779
Теоретические...............................................................................................779
Практические.................................................................................................781
Глава 13. Множественная проверка гипотез...............................................785
13.1 Краткий обзор проверки гипотез...............................................................786
13.1.1 Проверка гипотезы..........................................................................787
13.1.2 Ошибки I и II рода............................................................................791
13.2 Трудности множественной проверки гипотез..........................................793
13.3 Групповая вероятность ошибки..................................................................795
13.3.1 Что такое групповая вероятность ошибки...................................795
13.3.2 Способы контроля групповой вероятности ошибки..................797
13.3.3 Компромисс между групповой вероятностью ошибки и мощностью.....................................................................................804
13.4 Ожидаемая доля ложных отклонений гипотез.........................................805
13.4.1 Представление ожидаемой доли ложных отклонений гипотез...............................................................................................805
13.4.2 Метод Бенджамини–Хохберга........................................................807
13.5 Метод повторной выборки применительно к p-значениям и ожидаемой доле ложных отклонений гипотез......................................810
13.5.1 Метод повторной выборки для p-значений.................................811
13.5.2 Метод повторной выборки для ожидаемой доли ложных отклонений гипотез.........................................................................814
13.5.3 Когда бывают полезны методы повторной выборки?................817
13.6 Лабораторная работа: множественная проверка гипотез......................818
13.6.1 Обзор проверки гипотез..................................................................818
13.6.2 Групповая вероятность ошибки.....................................................820
13.6.3 Ожидаемая доля ложных отклонений гипотез............................824
13.6.4 Метод повторной выборки.............................................................827
13.7 Упражнения....................................................................................................831
Теоретические...............................................................................................831
Практические.................................................................................................833
Предметный указатель........................................................................................836
Книга доступным для восприятия языком описывает все разнообразие форм статистического обучения – полезного инструментария для извлечения выводов из огромных наборов данных, появившихся в последние 20 лет в самых разных областях науки. В дополнение к линейной регрессии описываются многие из наиболее значимых на сегодняшний день подходов в статистике и машинном обучении, включая методы повторной выборки, разреженные методы классификации и регрессии, обобщенные аддитивные модели, методы на основе деревьев, машины опорных векторов, глубокое обучение, анализ выживаемости или надежности, кластеризацию и множественную проверку гипотез. Повествование в книге обогащается примерами из реальной жизни.
Книга предназначена не только для опытных специалистов в области статистики, но и для тех, кто желает попробовать применить продвинутые техники статистического обучения при анализе своих данных.
Авторы этой книги принимали участие в написании ее первого издания («Введение в статистическое обучение с примерами на языке R»), которое по праву считается одним из лучших учебников в области статистики по всему миру и важнейшим справочником для специалистов в области науки о данных. Ключом к успеху книги стало то, что в каждой ее главе была приведена подробная инструкция по реализации описанных подходов на языке R. Однако в последние годы лидирующие позиции в области науки о данных прочно закрепились за языком Python, и все чаще ощущалась необходимость в соответствующем обновлении книги. И сейчас вы держите в руках книгу, вобравшую в себя все лучшее из первой книги, но полностью адаптированную под язык Python.
Даниэла Уиттон является специалистом в области биостатистики и занимает должность ассистента в университете Вашингтона. Ее исследовательская работа в основном посвящена применению методов машинного обучения для анализа многомерных данных. Благодаря ее вкладу, методы машинного обучения стали более широко применяться в геномных исследованиях.
Тревор Хасти и Роберт Тибширани являются профессорами статистики в Стэнфордском Университете, соавторами популярной книги «Элементы статистического обучения» и создателями обобщенных аддитивных моделей. Проф. Хасти внес также большой вклад в разработку статистического программного обеспечения на языках R и S-PLUS и создал методы «главных кривых» и «главных поверхностей». Проф. Тибширани предложил метод лассо и является одним из авторов популярной книги «Введение в бутстреп».