Введение в статистическое обучение с примерами на языке Python

Введение в статистическое обучение с примерами на языке Python

Введение в статистическое обучение с примерами на языке Python

Автор: Гарет Джеймс , Даниела Уиттон , Джонатан Тейлор , Роберт Тибширани , Тревор Хасти
Переводчик: А. Ю. Гинько
Дата выхода: 2024
Издательство: ДМК Пресс
Количество страниц: 848
Размер файла: 21,1 МБ
Тип файла: PDF
Добавил: codelibs
 Проверить на вирусы

От издательства.......................................................................................................14 

Предисловие.............................................................................................................15 

О переводчике.........................................................................................................18 Глава 1. 

Введение....................................................................................................19 

Общий обзор статистического обучения................................................................19 

Данные о зарплатах..............................................................................................19 

Данные по рынку акций......................................................................................21 

Данные об экспрессии генов..............................................................................22 

Краткая история статистического обучения..........................................................24 

О книге..........................................................................................................................25 

Для кого предназначена эта книга?.........................................................................28 

Обозначения и матричная алгебра по-простому..................................................29 

Структура книги..........................................................................................................32 

Используемые в лабораторных работах и упражнениях наборы данных.........33 

Сайт книги....................................................................................................................35 

Источники....................................................................................................................35 

Глава 2. Статистическое обучение.....................................................................36 

2.1 Что такое статистическое обучение?...........................................................36 

2.1.1 Зачем нужно оценивать f ?................................................................38 

2.1.2 Как оценивать f ?.................................................................................42 

2.1.3 Компромисс между точностью предсказаний и интерпретируемостью модели...46 

2.1.4 Обучение с учителем и без учителя................................................49 

2.1.5 Регрессия против классификации...................................................51 

2.2 Оценка точности модели...............................................................................52 

2.2.1 Оценка качества подгонки................................................................52 

2.2.2 Компромисс между смещением и дисперсией..............................58 

2.2.3 Задачи классификации......................................................................61 

2.3 Лабораторная работа: введение в Python....................................................68 

2.3.1 Подготовка..........................................................................................68 

2.3.2 Основные команды............................................................................69 

2.3.3 Введение в числовой Python.............................................................70 

2.3.4 Графика................................................................................................80 

2.3.5 Последовательности и срезы............................................................87 

2.3.6 Индексирование данных...................................................................89 

2.3.7 Загрузка данных.................................................................................93 

2.3.8 Циклы for...........................................................................................100 

2.3.9 Дополнение про графики и числа..................................................102 

2.4 Упражнения....................................................................................................109 

Теоретические...............................................................................................109 

Практические.................................................................................................111 

Глава 3. Линейная регрессия.............................................................................115 

3.1 Простая линейная регрессия.......................................................................116 

3.1.1 Оценка коэффициентов..................................................................117 

3.1.2 Определение точности оценки коэффициентов.........................120 

3.1.3 Определение точности оценки модели........................................126 

3.2 Множественная линейная регрессия.........................................................129 

3.2.1 Оценка регрессионных коэффициентов......................................130 

3.2.2 Важные вопросы...............................................................................133 

3.3 Прочие факторы регрессионного моделирования..................................142 

3.3.1 Качественные предикторы.............................................................142 

3.3.2 Расширения линейной модели......................................................147 

3.3.3 Возможные проблемы.....................................................................154 

3.4 Маркетинговый план....................................................................................166 

3.5 Сравнение линейной регрессии и классификатора k-ближайших соседей.........168 

3.6 Лабораторная работа: линейная регрессия...............................................174 

3.6.1 Импорт библиотек............................................................................174 

3.6.2 Простая линейная регрессия..........................................................176 

3.6.3 Множественная линейная регрессия............................................185 

3.6.4 Прелести многомерной подгонки.................................................186 

3.6.5 Эффекты взаимодействия...............................................................188 

3.6.6 Нелинейные преобразования предикторов.................................188 

3.6.7 Качественные предикторы.............................................................190 

3.7 Упражнения....................................................................................................192 

Теоретические...............................................................................................192 

Практические.................................................................................................194 

Глава 4. Классификация......................................................................................201 

4.1 Введение в классификацию.........................................................................202 

4.2 Почему не линейная регрессия?.................................................................203 

4.3 Логистическая регрессия.............................................................................205 

4.3.1 Логистическая модель.....................................................................206 

4.3.2 Оценивание регрессионных коэффициентов..............................208 

4.3.3 Предсказание....................................................................................210 

4.3.4 Множественная логистическая регрессия....................................211 

4.3.5 Мультиномиальная логистическая регрессия.............................214 

4.4 Обобщенные модели для классификации.................................................215 

4.4.1 Линейный дискриминантный анализ для p = 1...........................217 

4.4.2 Линейный дискриминантный анализ для p > 1...........................220 

4.4.3 Квадратичный дискриминантный анализ...................................229 

4.4.4 Наивный байесовский классификатор..........................................231 

4.5 Сравнение методов классификации..........................................................236 

4.5.1 Аналитическое сравнение..............................................................236 

4.5.2 Практическое сравнение.................................................................240 

4.6 Обобщенные линейные модели..................................................................244 

4.6.1 Применение линейной регрессии к набору данных Bikeshare....................244 

4.6.2 Пуассоновская регрессия на наборе данных Bikeshare..............247 

4.6.3 Применимость обобщенных линейных моделей........................251 

4.7 Лабораторная работа: логистическая регрессия, LDA, QDA и KNN.......252 

4.7.1 Набор данных Smarket.....................................................................252 

4.7.2 Логистическая регрессия................................................................254 

4.7.3 Линейный дискриминантный анализ...........................................261 

4.7.4 Квадратичный дискриминантный анализ...................................264 

4.7.5 Наивный байесовский классификатор..........................................266 

4.7.6 Классификатор k-ближайших соседей..........................................268 

4.7.7 Линейная и пуассоновская регрессия с набором данных Bikeshare...................276 

4.8 Упражнения....................................................................................................283 

Теоретические...............................................................................................283 

Практические.................................................................................................287 

Глава 5. Методы повторной выборки............................................................291 

5.1 Перекрестная проверка................................................................................292 

5.1.1 Метод проверочной выборки.........................................................292 

5.1.2 Перекрестная проверка по отдельным наблюдениям................295 

5.1.3 k-кратная перекрестная проверка.................................................297 

5.1.4 Компромисс между смещением и дисперсией применительно к k-кратной перекрестной проверке................300 

5.1.5 Перекрестная проверка при решении задач классификации................301 

5.2 Бутстреп..........................................................................................................304 

5.3 Лабораторная работа: перекрестная проверка и бутстреп.....................308 

5.3.1 Метод проверочной выборки.........................................................309 

5.3.2 Перекрестная проверка...................................................................312 

5.3.3 Бутстреп.............................................................................................315 

5.4 Упражнения....................................................................................................321 

Теоретические...............................................................................................321 

Практические.................................................................................................322 

Глава 6. Отбор и регуляризация линейных моделей...............................327 

6.1 Отбор подмножества переменных.............................................................329 

6.1.1 Отбор оптимального подмножества переменных......................329 

6.1.2 Пошаговый отбор.............................................................................332 

6.1.3 Выбор оптимальной модели...........................................................336 

6.2 Методы сжатия..............................................................................................342

6.2.1 Гребневая регрессия.........................................................................342 

6.2.2 Лассо...................................................................................................347 

6.2.3 Выбор гиперпараметра...................................................................357 

6.3 Методы снижения размерности.................................................................359 

6.3.1 Метод главных компонент..............................................................360 

6.3.2 Метод частных наименьших квадратов.......................................368 

6.4 Размышляя о большой размерности..........................................................370 

6.4.1 Данные большой размерности.......................................................370 

6.4.2 Что не так с данными большой размерности?.............................371 

6.4.3 Регрессия в условиях большой размерности...............................374 

6.4.4 Интерпретация результатов в задачах большой размерности......................................................................................375 

6.5 Лабораторная работа: линейные модели и методы регуляризации.........377 

6.5.1 Методы отбора подмножеств переменных..................................378 

6.5.2 Гребневая регрессия и лассо...........................................................387 

6.5.3 Регрессия PCR и PLS.........................................................................400 

6.6 Упражнения....................................................................................................404 

Теоретические...............................................................................................404 

Практические.................................................................................................408 

Глава 7. Выходим за рамки линейности........................................................411 

7.1 Полиномиальная регрессия.........................................................................412 

7.2 Ступенчатые функции..................................................................................414 

7.3 Базисные функции........................................................................................417 

7.4 Регрессионные сплайны...............................................................................417 

7.4.1 Кусочно-полиномиальная регрессия............................................417 

7.4.2 Ограничения и сплайны..................................................................418 

7.4.3 Представление сплайнов с помощью базисных функций.........420 

7.4.4 Выбор количества и расположения узлов.....................................422 

7.4.5 Сравнение с полиномиальной регрессией...................................424 

7.5 Сглаживающие сплайны..............................................................................425 

7.5.1 Введение в сглаживающие сплайны..............................................425 

7.5.2 Выбор сглаживающего параметра λ..............................................427 

7.6 Локальная регрессия.....................................................................................429 

7.7 Обобщенные аддитивные модели..............................................................432 

7.7.1 GAM для регрессионных задач.......................................................432 

7.7.2 GAM для задач классификации......................................................436 

7.8 Лабораторная работа: нелинейные модели..............................................438 

7.8.1 Полиномиальная регрессия и ступенчатые функции................438 

7.8.2 Сплайны.............................................................................................446 

7.8.3 Сглаживающие сплайны и GAM.....................................................450 

7.8.4 Локальная регрессия........................................................................466 

7.9 Упражнения....................................................................................................467 

Теоретические...............................................................................................467 

Практические.................................................................................................469 

Глава 8. Методы на основе деревьев решений..........................................473 

8.1 Основы деревьев решений..........................................................................473 

8.1.1 Регрессионные деревья...................................................................474 

8.1.2 Деревья классификации..................................................................482 

8.1.3 Деревья против линейных моделей..............................................485 

8.1.4 Преимущества и недостатки деревьев..........................................487 

8.2 Бэггинг, случайные леса, бустинг и байесовские аддитивные регрессионные деревья...487 

8.2.1 Бэггинг...............................................................................................488 

8.2.2 Случайные леса.................................................................................492 

8.2.3 Бустинг...............................................................................................494 

8.2.4 Байесовские аддитивные регрессионные деревья......................497 

8.2.5 Краткий вывод по ансамблевым методам, основанным на деревьях........501 

8.3 Лабораторная работа: методы на основе деревьев..................................502 

8.3.1 Построение деревьев классификации...........................................502 

8.3.2 Построение регрессионных деревьев...........................................509 

8.3.3 Бэггинг и случайный лес.................................................................511 

8.3.4 Бустинг...............................................................................................514 

8.3.5 Байесовские аддитивные регрессионные деревья......................516 

8.4 Упражнения....................................................................................................517 

Теоретические...............................................................................................517 

Практические.................................................................................................519 

Глава 9. Метод опорных векторов..................................................................522 

9.1 Классификатор с максимальным зазором................................................523 

9.1.1 Что такое гиперплоскость?.............................................................523 

9.1.2 Классификация с использованием разделяющей гиперплоскости.............524 

9.1.3 Классификатор с максимальным зазором...................................526 

9.1.4 Построение классификатора с максимальным зазором............528 

9.1.5 Случай с несуществующей разделяющей гиперплоскостью.....529 

9.2 Классификаторы на опорных векторах.....................................................530 

9.2.1 Введение в классификаторы на опорных векторах....................530 

9.2.2 Детали работы классификатора на опорных векторах..............532 

9.3 Метод опорных векторов.............................................................................535 

9.3.1 Классификация с использованием нелинейных решающих границ...............535 

9.3.2 Метод опорных векторов................................................................537 

9.3.3 Применение к данным о сердечных заболеваниях....................541 

9.4 SVM для случаев с несколькими классами................................................543 

9.4.1 Классификация «один против одного».........................................543 

9.4.2 Классификация «один против всех»..............................................543 

9.5 Связь с логистической регрессией.............................................................544 

9.6 Лабораторная работа: метод опорных векторов......................................547 

9.6.1 Классификатор на опорных векторах...........................................547 

9.6.2 Метод опорных векторов................................................................555 

9.6.3 ROC-кривые.......................................................................................560 

9.6.4 SVM с несколькими классами.........................................................563 

9.6.5 Применение на примере данных об экспрессии генов..............................565

9.7 Упражнения....................................................................................................567 

Теоретические...............................................................................................567 

Практические.................................................................................................568 

Глава 10. Глубокое обучение.............................................................................572 

10.1 Однослойные нейронные сети....................................................................573 

10.2 Многослойные нейронные сети..................................................................576 

10.3 Сверточные нейронные сети.......................................................................581 

10.3.1 Сверточные слои..............................................................................583 

10.3.2 Пулинговые слои..............................................................................586 

10.3.3 Архитектура сверточной нейронной сети....................................586 

10.3.4 Аугментация данных.......................................................................588 

10.3.5 Результаты использования обученного классификатора..........589 

10.4 Классификация документов........................................................................590 

10.5 Рекуррентные нейронные сети...................................................................594 

10.5.1 Последовательные модели для классификации документов....597 

10.5.2 Прогнозирование временных рядов.............................................600 

10.5.3 Резюме по рекуррентным нейронным сетям..............................604 

10.6 Когда нужно использовать глубокое обучение.........................................605 

10.7 Обучение нейронных сетей.........................................................................608 

10.7.1 Обратное распространение............................................................610 

10.7.2 Регуляризация и стохастический градиентный спуск...............611 

10.7.3 Метод прореживания.......................................................................612 

10.7.4 Настройка нейронной сети.............................................................614 

10.8 Интерполяция и двойной спуск..................................................................614 

10.9 Лабораторная работа: глубокое обучение.................................................619 

10.9.1 Однослойная нейронная сеть на наборе данных Hitters............622 

10.9.2 Многослойная нейронная сеть на наборе данных MNIST.........632 

10.9.3 Сверточные нейронные сети..........................................................638 

10.9.4 Использование предварительно обученных сверточных моделей..............644 

10.9.5 Классификация документов IMDB.................................................647 

10.9.6 Рекуррентные нейронные сети......................................................653 

10.10 Упражнения....................................................................................................663 

Теоретические...............................................................................................663 

Практические.................................................................................................664 

Глава 11. Анализ выживаемости и цензурированные данные.............666 

11.1 Время выживаемости и цензурированное время....................................667 

11.2 Понятие цензурирования............................................................................668 

11.3 Кривая выживаемости по методу Каплана–Мейера...............................669 

11.4 Логарифмический ранговый тест...............................................................672 

11.5 Регрессионные модели с откликом о выживаемости..............................675 

11.5.1 Функция риска..................................................................................675 

11.5.2 Пропорциональные риски..............................................................678 

11.5.3 Пример: набор данных BrainCancer..............................................681 

11.5.4 Пример: набор данных Publication................................................682 

11.6 Сжатие модели пропорциональных рисков Кокса...................................685 

11.7 Дополнительные темы.................................................................................687 

11.7.1 Значение площади под кривой для анализа выживаемости.....687 

11.7.2 Выбор временной шкалы................................................................688 

11.7.3 Предикторы, зависящие от времени.............................................689 

11.7.4 Проверка предположения о пропорциональных рисках...........690 

11.7.5 Деревья выживаемости...................................................................690 

11.8 Лабораторная работа: анализ выживаемости..........................................690 

11.8.1 Набор данных BrainCancer..............................................................691 

11.8.2 Набор данных Publication................................................................698 

11.8.3 Данные кол-центра..........................................................................700 

11.9 Упражнения....................................................................................................707

Теоретические...............................................................................................707 

Практические.................................................................................................710 

Глава 12. Методы обучения без учителя......................................................712 

12.1 Сложности, связанные с обучением без учителя.....................................712 

12.2 Анализ главных компонент.........................................................................713 

12.2.1 Что такое главные компоненты?...................................................714 

12.2.2 Другая интерпретация главных компонент.................................719 

12.2.3 Доля объясненной дисперсии........................................................721 

12.2.4 Подробности анализа главных компонент..................................723 

12.2.5 Другое применение главных компонент......................................726 

12.3 Пропущенные значения и заполнение матрицы.....................................726 

12.4 Методы кластеризации................................................................................732 

12.4.1 Кластеризация по методу k-средних.............................................734 

12.4.2 Иерархическая кластеризация.......................................................738 

12.4.3 Практические сложности при применении кластеризации......748 

12.5 Лабораторная работа: обучение без учителя............................................750 

12.5.1 Анализ главных компонент............................................................751 

12.5.2 Заполнение матрицы.......................................................................757 

12.5.3 Кластеризация..................................................................................761 

12.5.4 Пример с набором данных NCI60..................................................771 

12.6 Упражнения....................................................................................................779 

Теоретические...............................................................................................779 

Практические.................................................................................................781 

Глава 13. Множественная проверка гипотез...............................................785 

13.1 Краткий обзор проверки гипотез...............................................................786 

13.1.1 Проверка гипотезы..........................................................................787 

13.1.2 Ошибки I и II рода............................................................................791 

13.2 Трудности множественной проверки гипотез..........................................793 

13.3 Групповая вероятность ошибки..................................................................795 

13.3.1 Что такое групповая вероятность ошибки...................................795 

13.3.2 Способы контроля групповой вероятности ошибки..................797 

13.3.3 Компромисс между групповой вероятностью ошибки и мощностью.....................................................................................804 

13.4 Ожидаемая доля ложных отклонений гипотез.........................................805 

13.4.1 Представление ожидаемой доли ложных отклонений гипотез...............................................................................................805 

13.4.2 Метод Бенджамини–Хохберга........................................................807 

13.5 Метод повторной выборки применительно к p-значениям и ожидаемой доле ложных отклонений гипотез......................................810 

13.5.1 Метод повторной выборки для p-значений.................................811 

13.5.2 Метод повторной выборки для ожидаемой доли ложных отклонений гипотез.........................................................................814 

13.5.3 Когда бывают полезны методы повторной выборки?................817 

13.6 Лабораторная работа: множественная проверка гипотез......................818 

13.6.1 Обзор проверки гипотез..................................................................818 

13.6.2 Групповая вероятность ошибки.....................................................820 

13.6.3 Ожидаемая доля ложных отклонений гипотез............................824 

13.6.4 Метод повторной выборки.............................................................827 

13.7 Упражнения....................................................................................................831 

Теоретические...............................................................................................831 

Практические.................................................................................................833 

Предметный указатель........................................................................................836

 Книга доступным для восприятия языком описывает все разнообразие форм статистического обучения – полезного инструментария для извлечения выводов из огромных наборов данных, появившихся в последние 20 лет в самых разных областях науки. В дополнение к линейной регрессии описываются многие из наиболее значимых на сегодняшний день подходов в статистике и машинном обучении, включая методы повторной выборки, разреженные методы классификации и регрессии, обобщенные аддитивные модели, методы на основе деревьев, машины опорных векторов, глубокое обучение, анализ выживаемости или надежности, кластеризацию и множественную проверку гипотез. Повествование в книге обогащается примерами из реальной жизни.
Книга предназначена не только для опытных специалистов в области статистики, но и для тех, кто желает попробовать применить продвинутые техники статистического обучения при анализе своих данных.

 Авторы этой книги принимали участие в написании ее первого издания («Введение в статистическое обучение с примерами на языке R»), которое по праву считается одним из лучших учебников в области статистики по всему миру и важнейшим справочником для специалистов в области науки о данных. Ключом к успеху книги стало то, что в каждой ее главе была приведена подробная инструкция по реализации описанных подходов на языке R. Однако в последние годы лидирующие позиции в области науки о данных прочно закрепились за языком Python, и все чаще ощущалась необходимость в соответствующем обновлении книги. И сейчас вы держите в руках книгу, вобравшую в себя все лучшее из первой книги, но полностью адаптированную под язык Python.

 Даниэла Уиттон является специалистом в области биостатистики и занимает должность ассистента в университете Вашингтона. Ее исследовательская работа в основном посвящена применению методов машинного обучения для анализа многомерных данных. Благодаря ее вкладу, методы машинного обучения стали более широко применяться в геномных исследованиях.

 Тревор Хасти и Роберт Тибширани являются профессорами статистики в Стэнфордском Университете, соавторами популярной книги «Элементы статистического обучения» и создателями обобщенных аддитивных моделей. Проф. Хасти внес также большой вклад в разработку статистического программного обеспечения на языках R и S-PLUS и создал методы «главных кривых» и «главных поверхностей». Проф. Тибширани предложил метод лассо и является одним из авторов популярной книги «Введение в бутстреп».


Похожее: