Введение в статистическое обучение с примерами на языке Python

Name: Введение в статистическое обучение с примерами на языке Python
Author: Джеймс Гарет, Тейлор Джонатан, Тибширани Роберт, Уиттон Даниела, Хасти Тревор

Автор: Джеймс Гарет, Тейлор Джонатан, Тибширани Роберт, Уиттон Даниела, Хасти Тревор

Переводчик: А. Ю. Гинько

Дата выхода: 2024

Издательство: ДМК Пресс

Количество страниц: 848

Размер файла: 21,1 МБ

Тип файла: PDF

Добавил: codelibs

Проверить на вирусы

От издательства.......................................................................................................14

Предисловие.............................................................................................................15

О переводчике.........................................................................................................18 Глава 1.

Введение....................................................................................................19

Общий обзор статистического обучения................................................................19

Данные о зарплатах..............................................................................................19

Данные по рынку акций......................................................................................21

Данные об экспрессии генов..............................................................................22

Краткая история статистического обучения..........................................................24

О книге..........................................................................................................................25

Для кого предназначена эта книга?.........................................................................28

Обозначения и матричная алгебра по-простому..................................................29

Структура книги..........................................................................................................32

Используемые в лабораторных работах и упражнениях наборы данных.........33

Сайт книги....................................................................................................................35

Источники....................................................................................................................35

Глава 2. Статистическое обучение.....................................................................36

2.1 Что такое статистическое обучение?...........................................................36

2.1.1 Зачем нужно оценивать f ?................................................................38

2.1.2 Как оценивать f ?.................................................................................42

2.1.3 Компромисс между точностью предсказаний и интерпретируемостью модели...46

2.1.4 Обучение с учителем и без учителя................................................49

2.1.5 Регрессия против классификации...................................................51

2.2 Оценка точности модели...............................................................................52

2.2.1 Оценка качества подгонки................................................................52

2.2.2 Компромисс между смещением и дисперсией..............................58

2.2.3 Задачи классификации......................................................................61

2.3 Лабораторная работа: введение в Python....................................................68

2.3.1 Подготовка..........................................................................................68

2.3.2 Основные команды............................................................................69

2.3.3 Введение в числовой Python.............................................................70

2.3.4 Графика................................................................................................80

2.3.5 Последовательности и срезы............................................................87

2.3.6 Индексирование данных...................................................................89

2.3.7 Загрузка данных.................................................................................93

2.3.8 Циклы for...........................................................................................100

2.3.9 Дополнение про графики и числа..................................................102

2.4 Упражнения....................................................................................................109

Теоретические...............................................................................................109

Практические.................................................................................................111

Глава 3. Линейная регрессия.............................................................................115

3.1 Простая линейная регрессия.......................................................................116

3.1.1 Оценка коэффициентов..................................................................117

3.1.2 Определение точности оценки коэффициентов.........................120

3.1.3 Определение точности оценки модели........................................126

3.2 Множественная линейная регрессия.........................................................129

3.2.1 Оценка регрессионных коэффициентов......................................130

3.2.2 Важные вопросы...............................................................................133

3.3 Прочие факторы регрессионного моделирования..................................142

3.3.1 Качественные предикторы.............................................................142

3.3.2 Расширения линейной модели......................................................147

3.3.3 Возможные проблемы.....................................................................154

3.4 Маркетинговый план....................................................................................166

3.5 Сравнение линейной регрессии и классификатора k-ближайших соседей.........168

3.6 Лабораторная работа: линейная регрессия...............................................174

3.6.1 Импорт библиотек............................................................................174

3.6.2 Простая линейная регрессия..........................................................176

3.6.3 Множественная линейная регрессия............................................185

3.6.4 Прелести многомерной подгонки.................................................186

3.6.5 Эффекты взаимодействия...............................................................188

3.6.6 Нелинейные преобразования предикторов.................................188

3.6.7 Качественные предикторы.............................................................190

3.7 Упражнения....................................................................................................192

Теоретические...............................................................................................192

Практические.................................................................................................194

Глава 4. Классификация......................................................................................201

4.1 Введение в классификацию.........................................................................202

4.2 Почему не линейная регрессия?.................................................................203

4.3 Логистическая регрессия.............................................................................205

4.3.1 Логистическая модель.....................................................................206

4.3.2 Оценивание регрессионных коэффициентов..............................208

4.3.3 Предсказание....................................................................................210

4.3.4 Множественная логистическая регрессия....................................211

4.3.5 Мультиномиальная логистическая регрессия.............................214

4.4 Обобщенные модели для классификации.................................................215

4.4.1 Линейный дискриминантный анализ для p = 1...........................217

4.4.2 Линейный дискриминантный анализ для p > 1...........................220

4.4.3 Квадратичный дискриминантный анализ...................................229

4.4.4 Наивный байесовский классификатор..........................................231

4.5 Сравнение методов классификации..........................................................236

4.5.1 Аналитическое сравнение..............................................................236

4.5.2 Практическое сравнение.................................................................240

4.6 Обобщенные линейные модели..................................................................244

4.6.1 Применение линейной регрессии к набору данных Bikeshare....................244

4.6.2 Пуассоновская регрессия на наборе данных Bikeshare..............247

4.6.3 Применимость обобщенных линейных моделей........................251

4.7 Лабораторная работа: логистическая регрессия, LDA, QDA и KNN.......252

4.7.1 Набор данных Smarket.....................................................................252

4.7.2 Логистическая регрессия................................................................254

4.7.3 Линейный дискриминантный анализ...........................................261

4.7.4 Квадратичный дискриминантный анализ...................................264

4.7.5 Наивный байесовский классификатор..........................................266

4.7.6 Классификатор k-ближайших соседей..........................................268

4.7.7 Линейная и пуассоновская регрессия с набором данных Bikeshare...................276

4.8 Упражнения....................................................................................................283

Теоретические...............................................................................................283

Практические.................................................................................................287

Глава 5. Методы повторной выборки............................................................291

5.1 Перекрестная проверка................................................................................292

5.1.1 Метод проверочной выборки.........................................................292

5.1.2 Перекрестная проверка по отдельным наблюдениям................295

5.1.3 k-кратная перекрестная проверка.................................................297

5.1.4 Компромисс между смещением и дисперсией применительно к k-кратной перекрестной проверке................300

5.1.5 Перекрестная проверка при решении задач классификации................301

5.2 Бутстреп..........................................................................................................304

5.3 Лабораторная работа: перекрестная проверка и бутстреп.....................308

5.3.1 Метод проверочной выборки.........................................................309

5.3.2 Перекрестная проверка...................................................................312

5.3.3 Бутстреп.............................................................................................315

5.4 Упражнения....................................................................................................321

Теоретические...............................................................................................321

Практические.................................................................................................322

Глава 6. Отбор и регуляризация линейных моделей...............................327

6.1 Отбор подмножества переменных.............................................................329

6.1.1 Отбор оптимального подмножества переменных......................329

6.1.2 Пошаговый отбор.............................................................................332

6.1.3 Выбор оптимальной модели...........................................................336

6.2 Методы сжатия..............................................................................................342

6.2.1 Гребневая регрессия.........................................................................342

6.2.2 Лассо...................................................................................................347

6.2.3 Выбор гиперпараметра...................................................................357

6.3 Методы снижения размерности.................................................................359

6.3.1 Метод главных компонент..............................................................360

6.3.2 Метод частных наименьших квадратов.......................................368

6.4 Размышляя о большой размерности..........................................................370

6.4.1 Данные большой размерности.......................................................370

6.4.2 Что не так с данными большой размерности?.............................371

6.4.3 Регрессия в условиях большой размерности...............................374

6.4.4 Интерпретация результатов в задачах большой размерности......................................................................................375

6.5 Лабораторная работа: линейные модели и методы регуляризации.........377

6.5.1 Методы отбора подмножеств переменных..................................378

6.5.2 Гребневая регрессия и лассо...........................................................387

6.5.3 Регрессия PCR и PLS.........................................................................400

6.6 Упражнения....................................................................................................404

Теоретические...............................................................................................404

Практические.................................................................................................408

Глава 7. Выходим за рамки линейности........................................................411

7.1 Полиномиальная регрессия.........................................................................412

7.2 Ступенчатые функции..................................................................................414

7.3 Базисные функции........................................................................................417

7.4 Регрессионные сплайны...............................................................................417

7.4.1 Кусочно-полиномиальная регрессия............................................417

7.4.2 Ограничения и сплайны..................................................................418

7.4.3 Представление сплайнов с помощью базисных функций.........420

7.4.4 Выбор количества и расположения узлов.....................................422

7.4.5 Сравнение с полиномиальной регрессией...................................424

7.5 Сглаживающие сплайны..............................................................................425

7.5.1 Введение в сглаживающие сплайны..............................................425

7.5.2 Выбор сглаживающего параметра λ..............................................427

7.6 Локальная регрессия.....................................................................................429

7.7 Обобщенные аддитивные модели..............................................................432

7.7.1 GAM для регрессионных задач.......................................................432

7.7.2 GAM для задач классификации......................................................436

7.8 Лабораторная работа: нелинейные модели..............................................438

7.8.1 Полиномиальная регрессия и ступенчатые функции................438

7.8.2 Сплайны.............................................................................................446

7.8.3 Сглаживающие сплайны и GAM.....................................................450

7.8.4 Локальная регрессия........................................................................466

7.9 Упражнения....................................................................................................467

Теоретические...............................................................................................467

Практические.................................................................................................469

Глава 8. Методы на основе деревьев решений..........................................473

8.1 Основы деревьев решений..........................................................................473

8.1.1 Регрессионные деревья...................................................................474

8.1.2 Деревья классификации..................................................................482

8.1.3 Деревья против линейных моделей..............................................485

8.1.4 Преимущества и недостатки деревьев..........................................487

8.2 Бэггинг, случайные леса, бустинг и байесовские аддитивные регрессионные деревья...487

8.2.1 Бэггинг...............................................................................................488

8.2.2 Случайные леса.................................................................................492

8.2.3 Бустинг...............................................................................................494

8.2.4 Байесовские аддитивные регрессионные деревья......................497

8.2.5 Краткий вывод по ансамблевым методам, основанным на деревьях........501

8.3 Лабораторная работа: методы на основе деревьев..................................502

8.3.1 Построение деревьев классификации...........................................502

8.3.2 Построение регрессионных деревьев...........................................509

8.3.3 Бэггинг и случайный лес.................................................................511

8.3.4 Бустинг...............................................................................................514

8.3.5 Байесовские аддитивные регрессионные деревья......................516

8.4 Упражнения....................................................................................................517

Теоретические...............................................................................................517

Практические.................................................................................................519

Глава 9. Метод опорных векторов..................................................................522

9.1 Классификатор с максимальным зазором................................................523

9.1.1 Что такое гиперплоскость?.............................................................523

9.1.2 Классификация с использованием разделяющей гиперплоскости.............524

9.1.3 Классификатор с максимальным зазором...................................526

9.1.4 Построение классификатора с максимальным зазором............528

9.1.5 Случай с несуществующей разделяющей гиперплоскостью.....529

9.2 Классификаторы на опорных векторах.....................................................530

9.2.1 Введение в классификаторы на опорных векторах....................530

9.2.2 Детали работы классификатора на опорных векторах..............532

9.3 Метод опорных векторов.............................................................................535

9.3.1 Классификация с использованием нелинейных решающих границ...............535

9.3.2 Метод опорных векторов................................................................537

9.3.3 Применение к данным о сердечных заболеваниях....................541

9.4 SVM для случаев с несколькими классами................................................543

9.4.1 Классификация «один против одного».........................................543

9.4.2 Классификация «один против всех»..............................................543

9.5 Связь с логистической регрессией.............................................................544

9.6 Лабораторная работа: метод опорных векторов......................................547

9.6.1 Классификатор на опорных векторах...........................................547

9.6.2 Метод опорных векторов................................................................555

9.6.3 ROC-кривые.......................................................................................560

9.6.4 SVM с несколькими классами.........................................................563

9.6.5 Применение на примере данных об экспрессии генов..............................565

9.7 Упражнения....................................................................................................567

Теоретические...............................................................................................567

Практические.................................................................................................568

Глава 10. Глубокое обучение.............................................................................572

10.1 Однослойные нейронные сети....................................................................573

10.2 Многослойные нейронные сети..................................................................576

10.3 Сверточные нейронные сети.......................................................................581

10.3.1 Сверточные слои..............................................................................583

10.3.2 Пулинговые слои..............................................................................586

10.3.3 Архитектура сверточной нейронной сети....................................586

10.3.4 Аугментация данных.......................................................................588

10.3.5 Результаты использования обученного классификатора..........589

10.4 Классификация документов........................................................................590

10.5 Рекуррентные нейронные сети...................................................................594

10.5.1 Последовательные модели для классификации документов....597

10.5.2 Прогнозирование временных рядов.............................................600

10.5.3 Резюме по рекуррентным нейронным сетям..............................604

10.6 Когда нужно использовать глубокое обучение.........................................605

10.7 Обучение нейронных сетей.........................................................................608

10.7.1 Обратное распространение............................................................610

10.7.2 Регуляризация и стохастический градиентный спуск...............611

10.7.3 Метод прореживания.......................................................................612

10.7.4 Настройка нейронной сети.............................................................614

10.8 Интерполяция и двойной спуск..................................................................614

10.9 Лабораторная работа: глубокое обучение.................................................619

10.9.1 Однослойная нейронная сеть на наборе данных Hitters............622

10.9.2 Многослойная нейронная сеть на наборе данных MNIST.........632

10.9.3 Сверточные нейронные сети..........................................................638

10.9.4 Использование предварительно обученных сверточных моделей..............644

10.9.5 Классификация документов IMDB.................................................647

10.9.6 Рекуррентные нейронные сети......................................................653

10.10 Упражнения....................................................................................................663

Теоретические...............................................................................................663

Практические.................................................................................................664

Глава 11. Анализ выживаемости и цензурированные данные.............666

11.1 Время выживаемости и цензурированное время....................................667

11.2 Понятие цензурирования............................................................................668

11.3 Кривая выживаемости по методу Каплана–Мейера...............................669

11.4 Логарифмический ранговый тест...............................................................672

11.5 Регрессионные модели с откликом о выживаемости..............................675

11.5.1 Функция риска..................................................................................675

11.5.2 Пропорциональные риски..............................................................678

11.5.3 Пример: набор данных BrainCancer..............................................681

11.5.4 Пример: набор данных Publication................................................682

11.6 Сжатие модели пропорциональных рисков Кокса...................................685

11.7 Дополнительные темы.................................................................................687

11.7.1 Значение площади под кривой для анализа выживаемости.....687

11.7.2 Выбор временной шкалы................................................................688

11.7.3 Предикторы, зависящие от времени.............................................689

11.7.4 Проверка предположения о пропорциональных рисках...........690

11.7.5 Деревья выживаемости...................................................................690

11.8 Лабораторная работа: анализ выживаемости..........................................690

11.8.1 Набор данных BrainCancer..............................................................691

11.8.2 Набор данных Publication................................................................698

11.8.3 Данные кол-центра..........................................................................700

11.9 Упражнения....................................................................................................707

Теоретические...............................................................................................707

Практические.................................................................................................710

Глава 12. Методы обучения без учителя......................................................712

12.1 Сложности, связанные с обучением без учителя.....................................712

12.2 Анализ главных компонент.........................................................................713

12.2.1 Что такое главные компоненты?...................................................714

12.2.2 Другая интерпретация главных компонент.................................719

12.2.3 Доля объясненной дисперсии........................................................721

12.2.4 Подробности анализа главных компонент..................................723

12.2.5 Другое применение главных компонент......................................726

12.3 Пропущенные значения и заполнение матрицы.....................................726

12.4 Методы кластеризации................................................................................732

12.4.1 Кластеризация по методу k-средних.............................................734

12.4.2 Иерархическая кластеризация.......................................................738

12.4.3 Практические сложности при применении кластеризации......748

12.5 Лабораторная работа: обучение без учителя............................................750

12.5.1 Анализ главных компонент............................................................751

12.5.2 Заполнение матрицы.......................................................................757

12.5.3 Кластеризация..................................................................................761

12.5.4 Пример с набором данных NCI60..................................................771

12.6 Упражнения....................................................................................................779

Теоретические...............................................................................................779

Практические.................................................................................................781

Глава 13. Множественная проверка гипотез...............................................785

13.1 Краткий обзор проверки гипотез...............................................................786

13.1.1 Проверка гипотезы..........................................................................787

13.1.2 Ошибки I и II рода............................................................................791

13.2 Трудности множественной проверки гипотез..........................................793

13.3 Групповая вероятность ошибки..................................................................795

13.3.1 Что такое групповая вероятность ошибки...................................795

13.3.2 Способы контроля групповой вероятности ошибки..................797

13.3.3 Компромисс между групповой вероятностью ошибки и мощностью.....................................................................................804

13.4 Ожидаемая доля ложных отклонений гипотез.........................................805

13.4.1 Представление ожидаемой доли ложных отклонений гипотез...............................................................................................805

13.4.2 Метод Бенджамини–Хохберга........................................................807

13.5 Метод повторной выборки применительно к p-значениям и ожидаемой доле ложных отклонений гипотез......................................810

13.5.1 Метод повторной выборки для p-значений.................................811

13.5.2 Метод повторной выборки для ожидаемой доли ложных отклонений гипотез.........................................................................814

13.5.3 Когда бывают полезны методы повторной выборки?................817

13.6 Лабораторная работа: множественная проверка гипотез......................818

13.6.1 Обзор проверки гипотез..................................................................818

13.6.2 Групповая вероятность ошибки.....................................................820

13.6.3 Ожидаемая доля ложных отклонений гипотез............................824

13.6.4 Метод повторной выборки.............................................................827

13.7 Упражнения....................................................................................................831

Теоретические...............................................................................................831

Практические.................................................................................................833

Предметный указатель........................................................................................836

Книга доступным для восприятия языком описывает все разнообразие форм статистического обучения – полезного инструментария для извлечения выводов из огромных наборов данных, появившихся в последние 20 лет в самых разных областях науки. В дополнение к линейной регрессии описываются многие из наиболее значимых на сегодняшний день подходов в статистике и машинном обучении, включая методы повторной выборки, разреженные методы классификации и регрессии, обобщенные аддитивные модели, методы на основе деревьев, машины опорных векторов, глубокое обучение, анализ выживаемости или надежности, кластеризацию и множественную проверку гипотез. Повествование в книге обогащается примерами из реальной жизни.
Книга предназначена не только для опытных специалистов в области статистики, но и для тех, кто желает попробовать применить продвинутые техники статистического обучения при анализе своих данных.

Авторы этой книги принимали участие в написании ее первого издания («Введение в статистическое обучение с примерами на языке R»), которое по праву считается одним из лучших учебников в области статистики по всему миру и важнейшим справочником для специалистов в области науки о данных. Ключом к успеху книги стало то, что в каждой ее главе была приведена подробная инструкция по реализации описанных подходов на языке R. Однако в последние годы лидирующие позиции в области науки о данных прочно закрепились за языком Python, и все чаще ощущалась необходимость в соответствующем обновлении книги. И сейчас вы держите в руках книгу, вобравшую в себя все лучшее из первой книги, но полностью адаптированную под язык Python.

Даниэла Уиттон является специалистом в области биостатистики и занимает должность ассистента в университете Вашингтона. Ее исследовательская работа в основном посвящена применению методов машинного обучения для анализа многомерных данных. Благодаря ее вкладу, методы машинного обучения стали более широко применяться в геномных исследованиях.

Тревор Хасти и Роберт Тибширани являются профессорами статистики в Стэнфордском Университете, соавторами популярной книги «Элементы статистического обучения» и создателями обобщенных аддитивных моделей. Проф. Хасти внес также большой вклад в разработку статистического программного обеспечения на языках R и S-PLUS и создал методы «главных кривых» и «главных поверхностей». Проф. Тибширани предложил метод лассо и является одним из авторов популярной книги «Введение в бутстреп».

Если вам понравилась эта страница - поделитесь ею с друзьями, тем самым вы помогаете нам развиваться и добавлять всё больше интересных и нужным вам книг