Введение в статистическое обучение с примерами на языке Python

Автор: Джеймс Гарет, Тейлор Джонатан, Тибширани Роберт, Уиттон Даниела, Хасти Тревор

Переводчик: А. Ю. Гинько

Дата выхода: 2024

Издательство: ДМК Пресс

Количество страниц: 848

Размер файла: 12,9 МБ

Тип файла: PDF

Добавил: codelibs

Проверить на вирусы

От издательства....15

Предисловие....16

О переводчике....19

Глава 1. Введение....20

Общий обзор статистического обучения....20

Данные о зарплатах....20

Данные по рынку акций....22

Данные об экспрессии генов....23

Краткая история статистического обучения....25

О книге....26

Для кого предназначена эта книга?....29

Обозначения и матричная алгебра по-простому....30

Структура книги....33

Используемые в лабораторных работах и упражнениях наборы данных....34

Источники....36

Сайт книги....36

Глава 2. Статистическое обучение....37

2.1 Что такое статистическое обучение?....37

2.1.1 Зачем нужно оценивать f?....39

2.1.2 Как оценивать f?....43

2.1.3 Компромисс между точностью предсказаний и интерпретируемостью модели....47

2.1.4 Обучение с учителем и без учителя....50

2.1.5 Регрессия против классификации....52

2.2 Оценка точности модели....53

2.2.1 Оценка качества подгонки....53

2.2.2 Компромисс между смещением и дисперсией....59

2.2.3 Задачи классификации....62

2.3 Лабораторная работа: введение в Python....69

2.3.1 Подготовка....69

2.3.2 Основные команды....70

2.3.3 Введение в числовой Python....71

2.3.4 Графика....81

2.3.5 Последовательности и срезы....88

2.3.6 Индексирование данных....90

2.3.7 Загрузка данных....94

2.3.8 Циклы for....101

2.3.9 Дополнение про графики и числа....103

2.4 Упражнения....110

Теоретические....110

Практические....112

Глава 3. Линейная регрессия....116

3.1 Простая линейная регрессия....117

3.1.1 Оценка коэффициентов....118

3.1.2 Определение точности оценки коэффициентов....121

3.1.3 Определение точности оценки модели....127

3.2 Множественная линейная регрессия....130

3.2.1 Оценка регрессионных коэффициентов....131

3.2.2 Важные вопросы....134

3.3 Прочие факторы регрессионного моделирования....143

3.3.1 Качественные предикторы....143

3.3.2 Расширения линейной модели....148

3.3.3 Возможные проблемы....155

3.4 Маркетинговый план....167

3.5 Сравнение линейной регрессии и классификатора k-ближайших соседей....169

3.6 Лабораторная работа: линейная регрессия....175

3.6.1 Импорт библиотек....175

3.6.2 Простая линейная регрессия....177

3.6.3 Множественная линейная регрессия....186

3.6.4 Прелести многомерной подгонки....187

3.6.5 Эффекты взаимодействия....189

3.6.6 Нелинейные преобразования предикторов....189

3.6.7 Качественные предикторы....191

3.7 Упражнения....193

Теоретические....193

Практические....195

Глава 4. Классификация....202

4.1 Введение в классификацию....203

4.2 Почему не линейная регрессия?....204

4.3 Логистическая регрессия....206

4.3.1 Логистическая модель....207

4.3.2 Оценивание регрессионных коэффициентов....209

4.3.3 Предсказание....211

4.3.4 Множественная логистическая регрессия....212

4.3.5 Мультиномиальная логистическая регрессия....215

4.4 Обобщенные модели для классификации....216

4.4.1 Линейный дискриминантный анализ для p = 1....218

4.4.2 Линейный дискриминантный анализ для p > 1....221

4.4.3 Квадратичный дискриминантный анализ....230

4.4.4 Наивный байесовский классификатор....232

4.5 Сравнение методов классификации....237

4.5.1 Аналитическое сравнение....237

4.5.2 Практическое сравнение....241

4.6 Обобщенные линейные модели....245

4.6.1 Применение линейной регрессии к набору данных Bikeshare....245

4.6.2 Пуассоновская регрессия на наборе данных Bikeshare....248

4.6.3 Применимость обобщенных линейных моделей....252

4.7 Лабораторная работа: логистическая регрессия, LDA, QDA и KNN....253

4.7.1 Набор данных Smarket....253

4.7.2 Логистическая регрессия....255

4.7.3 Линейный дискриминантный анализ....262

4.7.4 Квадратичный дискриминантный анализ....265

4.7.5 Наивный байесовский классификатор....267

4.7.6 Классификатор k-ближайших соседей....269

4.7.7 Линейная и пуассоновская регрессия с набором данных Bikeshare....277

4.8 Упражнения....284

Теоретические....284

Практические....288

Глава 5. Методы повторной выборки....292

5.1 Перекрестная проверка....293

5.1.1 Метод проверочной выборки....293

5.1.2 Перекрестная проверка по отдельным наблюдениям....296

5.1.3 k-кратная перекрестная проверка....298

5.1.4 Компромисс между смещением и дисперсией применительно к k-кратной перекрестной проверке....301

5.1.5 Перекрестная проверка при решении задач классификации....302

5.2 Бутстреп....305

5.3 Лабораторная работа: перекрестная проверка и бутстреп....309

5.3.1 Метод проверочной выборки....310

5.3.2 Перекрестная проверка....313

5.3.3 Бутстреп....316

5.4 Упражнения....322

Теоретические ....322

Практические....323

Глава 6. Отбор и регуляризация линейных моделей....328

6.1 Отбор подмножества переменных....330

6.1.1 Отбор оптимального подмножества переменных....330

6.1.2 Пошаговый отбор....333

6.1.3 Выбор оптимальной модели....337

6.2 Методы сжатия....343

6.2.1 Гребневая регрессия....343

6.2.2 Лассо....348

6.2.3 Выбор гиперпараметра....358

6.3 Методы снижения размерности....360

6.3.1 Метод главных компонент....361

6.3.2 Метод частных наименьших квадратов....369

6.4 Размышляя о большой размерности....371

6.4.1 Данные большой размерности....371

6.4.2 Что не так с данными большой размерности?....372

6.4.3 Регрессия в условиях большой размерности....375

6.4.4 Интерпретация результатов в задачах большой размерности....376

6.5 Лабораторная работа: линейные модели и методы регуляризации....378

6.5.1 Методы отбора подмножеств переменных....379

6.5.2 Гребневая регрессия и лассо....388

6.5.3 Регрессия PCR и PLS....401

6.6 Упражнения....405

Теоретические....405

Практические....409

Глава 7. Выходим за рамки линейности....412

7.1 Полиномиальная регрессия....413

7.2 Ступенчатые функции....415

7.3 Базисные функции....418

7.4 Регрессионные сплайны....418

7.4.1 Кусочно-полиномиальная регрессия....418

7.4.2 Ограничения и сплайны....419

7.4.3 Представление сплайнов с помощью базисных функций....421

7.4.4 Выбор количества и расположения узлов....423

7.4.5 Сравнение с полиномиальной регрессией....425

7.5 Сглаживающие сплайны....426

7.5.1 Введение в сглаживающие сплайны....426

7.5.2 Выбор сглаживающего параметра λ....428

7.6 Локальная регрессия....430

7.7 Обобщенные аддитивные модели....433

7.7.1 GAM для регрессионных задач....433

7.7.2 GAM для задач классификации....437

7.8 Лабораторная работа: нелинейные модели....439

7.8.1 Полиномиальная регрессия и ступенчатые функции....439

7.8.2 Сплайны....447

7.8.3 Сглаживающие сплайны и GAM....451

7.8.4 Локальная регрессия....467

7.9 Упражнения....468

Теоретические....468

Практические....470

Глава 8. Методы на основе деревьев решений....474

8.1 Основы деревьев решений....474

8.1.1 Регрессионные деревья....475

8.1.2 Деревья классификации....483

8.1.3 Деревья против линейных моделей....486

8.1.4 Преимущества и недостатки деревьев....488

8.2 Бэггинг, случайные леса, бустинг и байесовские аддитивные регрессионные деревья....488

8.2.1 Бэггинг....489

8.2.2 Случайные леса....493

8.2.3 Бустинг....495

8.2.4 Байесовские аддитивные регрессионные деревья....498

8.2.5 Краткий вывод по ансамблевым методам, основанным на деревьях....502

8.3 Лабораторная работа: методы на основе деревьев....503

8.3.1 Построение деревьев классификации....503

8.3.2 Построение регрессионных деревьев....510

8.3.3 Бэггинг и случайный лес....512

8.3.4 Бустинг....515

8.3.5 Байесовские аддитивные регрессионные деревья....517

8.4 Упражнения....518

Теоретические....518

Практические....520

Глава 9. Метод опорных векторов....523

9.1 Классификатор с максимальным зазором....524

9.1.1 Что такое гиперплоскость?....524

9.1.2 Классификация с использованием разделяющей гиперплоскости....525

9.1.3 Классификатор с максимальным зазором....527

9.1.4 Построение классификатора с максимальным зазором....529

9.1.5 Случай с несуществующей разделяющей гиперплоскостью....530

9.2 Классификаторы на опорных векторах....531

9.2.1 Введение в классификаторы на опорных векторах....531

9.2.2 Детали работы классификатора на опорных векторах....533

9.3 Метод опорных векторов....536

9.3.1 Классификация с использованием нелинейных решающих границ....536

9.3.2 Метод опорных векторов....538

9.3.3 Применение к данным о сердечных заболеваниях....542

9.4 SVM для случаев с несколькими классами....544

9.4.1 Классификация «один против одного»....544

9.4.2 Классификация «один против всех»....544

9.5 Связь с логистической регрессией....545

9.6 Лабораторная работа: метод опорных векторов....548

9.6.1 Классификатор на опорных векторах....548

9.6.2 Метод опорных векторов....556

9.6.3 ROC-кривые....561

9.6.4 SVM с несколькими классами....564

9.6.5 Применение на примере данных об экспрессии генов....566

9.7 Упражнения....568

Теоретические....568

Практические....569

Глава 10. Глубокое обучение....573

10.1 Однослойные нейронные сети....574

10.2 Многослойные нейронные сети....577

10.3 Сверточные нейронные сети....582

10.3.1 Сверточные слои....584

10.3.2 Пулинговые слои....587

10.3.3 Архитектура сверточной нейронной сети....587

10.3.4 Аугментация данных....589

10.3.5 Результаты использования обученного классификатора....590

10.4 Классификация документов....591

10.5 Рекуррентные нейронные сети....595

10.5.1 Последовательные модели для классификации документов....598

10.5.2 Прогнозирование временных рядов....601

10.5.3 Резюме по рекуррентным нейронным сетям....605

10.6 Когда нужно использовать глубокое обучение....606

10.7 Обучение нейронных сетей....609

10.7.1 Обратное распространение....611

10.7.2 Регуляризация и стохастический градиентный спуск....612

10.7.3 Метод прореживания....613

10.7.4 Настройка нейронной сети....615

10.8 Интерполяция и двойной спуск....615

10.9 Лабораторная работа: глубокое обучение....620

10.9.1 Однослойная нейронная сеть на наборе данных Hitters....623

10.9.2 Многослойная нейронная сеть на наборе данных MNIST....633

10.9.3 Сверточные нейронные сети....639

10.9.4 Использование предварительно обученных сверточных моделей....645

10.9.5 Классификация документов IMDB....648

10.9.6 Рекуррентные нейронные сети....654

10.10 Упражнения....664

Теоретические....664

Практические....665

Глава 11. Анализ выживаемости и цензурированные данные....667

11.1 Время выживаемости и цензурированное время....668

11.2 Понятие цензурирования....669

11.3 Кривая выживаемости по методу Каплана–Мейера....670

11.4 Логарифмический ранговый тест....673

11.5 Регрессионные модели с откликом о выживаемости....676

11.5.1 Функция риска....676

11.5.2 Пропорциональные риски....679

11.5.3 Пример: набор данных BrainCancer....682

11.5.4 Пример: набор данных Publication....683

11.6 Сжатие модели пропорциональных рисков Кокса....686

11.7 Дополнительные темы....688

11.7.1 Значение площади под кривой для анализа выживаемости....688

11.7.2 Выбор временной шкалы....689

11.7.3 Предикторы, зависящие от времени....690

11.7.4 Проверка предположения о пропорциональных рисках....691

11.7.5 Деревья выживаемости....691

11.8 Лабораторная работа: анализ выживаемости....691

11.8.1 Набор данных BrainCancer....692

11.8.2 Набор данных Publication....699

11.8.3 Данные кол-центра....701

11.9 Упражнения....708

Теоретические....708

Практические....711

Глава 12. Методы обучения без учителя....713

12.1 Сложности, связанные с обучением без учителя....713

12.2 Анализ главных компонент....714

12.2.1 Что такое главные компоненты?....715

12.2.2 Другая интерпретация главных компонент....720

12.2.3 Доля объясненной дисперсии....722

12.2.4 Подробности анализа главных компонент....724

12.2.5 Другое применение главных компонент....727

12.3 Пропущенные значения и заполнение матрицы....727

12.4 Методы кластеризации....733

12.4.1 Кластеризация по методу k-средних....735

12.4.2 Иерархическая кластеризация....739

12.4.3 Практические сложности при применении кластеризации....749

12.5 Лабораторная работа: обучение без учителя....751

12.5.1 Анализ главных компонент....752

12.5.2 Заполнение матрицы....758

12.5.3 Кластеризация....762

12.5.4 Пример с набором данных NCI60....772

12.6 Упражнения....780

Теоретические....780

Практические....782

Глава 13. Множественная проверка гипотез....786

13.1 Краткий обзор проверки гипотез....787

13.1.1 Проверка гипотезы....788

13.1.2 Ошибки I и II рода....792

13.2 Трудности множественной проверки гипотез....794

13.3 Групповая вероятность ошибки....796

13.3.1 Что такое групповая вероятность ошибки....796

13.3.2 Способы контроля групповой вероятности ошибки....798

13.3.3 Компромисс между групповой вероятностью ошибки и мощностью....805

13.4 Ожидаемая доля ложных отклонений гипотез....806

13.4.1 Представление ожидаемой доли ложных отклонений гипотез....806

13.4.2 Метод Бенджамини–Хохберга....808

13.5 Метод повторной выборки применительно к p-значениям и ожидаемой доле ложных отклонений гипотез....811

13.5.1 Метод повторной выборки для p-значений....812

13.5.2 Метод повторной выборки для ожидаемой доли ложных отклонений гипотез....815

13.5.3 Когда бывают полезны методы повторной выборки?....818

13.6 Лабораторная работа: множественная проверка гипотез....819

13.6.1 Обзор проверки гипотез....819

13.6.2 Групповая вероятность ошибки....821

13.6.3 Ожидаемая доля ложных отклонений гипотез....825

13.6.4 Метод повторной выборки....828

13.7 Упражнения....832

Теоретические....832

Практические....834

Предметный указатель....837

Пустая страница....1

Книга доступным для восприятия языком описывает все разнообразие форм статистического обучения – полезного инструментария для извлечения выводов из огромных наборов данных, появившихся в последние 20 лет в самых разных областях науки. В дополнение к линейной регрессии описываются многие из наиболее значимых на сегодняшний день подходов в статистике и машинном обучении, включая методы повторной выборки, разреженные методы классификации и регрессии, обобщенные аддитивные модели, методы на основе деревьев, машины опорных векторов, глубокое обучение, анализ выживаемости или надежности, кластеризацию и множественную проверку гипотез. Повествование в книге обогащается примерами из реальной жизни.Книга предназначена не только для опытных специалистов в области статистики, но и для тех, кто желает попробовать применить продвинутые техники статистического обучения при анализе своих данных.

Авторы этой книги принимали участие в написании ее первого издания («Введение в статистическое обучение с примерами на языке R»), которое по праву считается одним из лучших учебников в области статистики по всему миру и важнейшим справочником для специалистов в области науки о данных. Ключом к успеху книги стало то, что в каждой ее главе была приведена подробная инструкция по реализации описанных подходов на языке R. Однако в последние годы лидирующие позиции в области науки о данных прочно закрепились за языком Python, и все чаще ощущалась необходимость в соответствующем обновлении книги. И сейчас вы держите в руках книгу, вобравшую в себя все лучшее из первой книги, но полностью адаптированную под язык Python.

Даниэла Уиттон является специалистом в области биостатистики и занимает должность ассистента в университете Вашингтона. Ее исследовательская работа в основном посвящена применению методов машинного обучения для анализа многомерных данных. Благодаря ее вкладу, методы машинного обучения стали более широко применяться в геномных исследованиях.

Тревор Хасти и Роберт Тибширани являются профессорами статистики в Стэнфордском Университете, соавторами популярной книги «Элементы статистического обучения» и создателями обобщенных аддитивных моделей. Проф. Хасти внес также большой вклад в разработку статистического программного обеспечения на языках R и S-PLUS и создал методы «главных кривых» и «главных поверхностей». Проф. Тибширани предложил метод лассо и является одним из авторов популярной книги «Введение в бутстреп».

Если вам понравилась эта страница - поделитесь ею с друзьями, тем самым вы помогаете нам развиваться и добавлять всё больше интересных и нужным вам книг