Машинное обучение: основы

Машинное обучение: основы

Машинное обучение: основы
Автор: Николенко Сергей Игоревич
Дата выхода: 2025
Издательство: Питер
Количество страниц: 609
Тип файла: PDF
Добавил: codelibs

Внимание!!!! Книга удалена по требованию правообладателя!!!!

Предисловие . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....9Весна искусственного интеллекта . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....9Горький урок или повод для оптимизма? . . . . . . . . . . . . . . . . . . . . . . . ....13План книги: о чём пойдёт речь далее . . . . . . . . . . . . . . . . . . . . . . . . . . ....17История книги и благодарности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....20Глава 1. Что такое машинное обучение1.1 Искусственный интеллект от Адама до Франкенштейна . . . . . . . . . . ....241.1.1 Ранняя история . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....241.1.2 Механические автоматы Средних веков и Нового времени . . . . . . . ....271.1.3 Ранняя математическая логика . . . . . . . . . . . . . . . . . . . . . . . . . . ....301.2 AI как наука: тест Тьюринга и три волны хайпа . . . . . . . . . . . . . . . . ....341.2.1 Тест Тьюринга . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....341.2.2 Дартмутский семинар и первая волна хайпа . . . . . . . . . . . . . . . . . ....391.2.3 Машинный перевод и первая «зима искусственного интеллекта» . . . ....421.2.4 Обратное распространение ошибки и вторая волна хайпа . . . . . . . . ....471.3 Постановки задач искусственного интеллекта. . . . . . . . . . . . . . . . . . ....501.3.1 Классификация задач искусственного интеллекта . . . . . . . . . . . . . ....501.3.2 Обучение с учителем: регрессия и классификация . . . . . . . . . . . . . ....521.3.3 Обучение без учителя . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....541.4 Области искусственного интеллекта: какие бывают данные. . . . . . . . ....571.4.1 Извлечение признаков в машинном обучении . . . . . . . . . . . . . . . . ....571.4.2 Оверфиттинг и разные части датасета . . . . . . . . . . . . . . . . . . . . . ....581.4.3 Табличные данные . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....601.4.4 Обработка последовательностей . . . . . . . . . . . . . . . . . . . . . . . . . ....611.4.5 Обработка изображений и более сложных типов данных . . . . . . . ....621.5 Как машинное обучение помогает другим наукам . . . . . . . . . . . . . . ....641.5.1 Физика и астрономия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....641.5.2 Математика. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....661.5.3 Химия и биология . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....691.5.4 Науки о Земле . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....721.5.5 Социальные науки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....73Глава 2. Основы байесовского вывода2.1 Основы теории вероятностей . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....772.1.1 Введение: вероятностные пространства и распределения. . . . . . . ....772.1.2 Случайные величины и совместные распределения . . . . . . . . . . . . ....822.1.3 Условные вероятности . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....852.1.4 Независимость и условная независимость . . . . . . . . . . . . . . . . . . ....872.1.5 Моменты случайной величины: ожидание и дисперсия. . . . . . . . . . ....91*2.1.6 Как ещё можно ввести понятие вероятности . . . . . . . . . . . . . . . . ....942.2 Вероятности в машинном обучении: теорема Байеса . . . . . . . . . . . . ....1002.2.1 Теорема Байеса в машинном обучении. . . . . . . . . . . . . . . . . . . . . ....1002.2.2 Медицинский тест с двусторонней ошибкой . . . . . . . . . . . . . . . . . ....1042.2.3 Разные виды ошибок и метрики качества классификации . . . . . . ....1062.2.4 Задачи байесовского вывода. . . . . . . . . . . . . . . . . . . . . . . . . . . . ....1102.3 Байес в суде и сложности вероятностной интуиции . . . . . . . . . . . . ....1152.3.1 Вероятностная интуиция — точнее, её отсутствие . . . . . . . . . . . ....1152.3.2 Ошибка прокурора . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....1172.3.3 Ошибка адвоката . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....1202.3.4 Парадокс Монти Холла и когнитивные искажения . . . . . . . . . . . . ....1222.4 Монетка и сопряжённые априорные распределения . . . . . . . . . . . . . ....1262.4.1 Монетка с точки зрения байесовского вывода . . . . . . . . . . . . . . . . ....1262.4.2 Бета-распределения как апостериорные для монетки . . . . . . . . . . . ....1292.4.3 Предсказательное распределение и правило Лапласа . . . . . . . . . . . ....1322.4.4 Сопряжённые априорные распределения . . . . . . . . . . . . . . . . . . . ....1342.4.5 Игральные кости и распределения, добавляющие разреженность . . . ....139*2.5 Case study: монетки, подброшенные «горячей рукой» . . . . . . . . . . . . ....149*2.5.1 Разоблачение эффекта «горячей руки» . . . . . . . . . . . . . . . . . . . . . ....149*2.5.2 Разоблачение разоблачения эффекта «горячей руки». . . . . . . . . . . . ....151*2.5.3 Выводы. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....1552.6 Кризис воспроизводимости . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....1572.6.1 Кризис воспроизводимости в психологии и социальных науках . . . . ....1572.6.2 Почему результаты не воспроизводятся: p-значения и p-хакинг . . . . ....1622.6.3 Сад расходящихся тропок и парапсихология. . . . . . . . . . . . . . . . . ....167*2.6.4 Модель Иоаннидиса. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....1702.6.5 Воспроизводимость в машинном обучении . . . . . . . . . . . . . . . . . . ....173Глава 3. Теория вероятностей и оптимизация3.1 Важные дискретные распределения . . . . . . . . . . . . . . . . . . . . . . . . . . ....1773.1.1 Равномерное, биномиальное и геометрическое распределения . . . . . ....1773.1.2 Биномиальное распределение Пуассона . . . . . . . . . . . . . . . . . . . . ....1813.1.3 Распределение Пуассона и закон редких событий . . . . . . . . . . . . . ....1833.1.4 Отрицательное биномиальное, гипергеометрическое распределения ....186*3.1.5 Закон Ципфа . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....1913.2 Важные непрерывные распределения . . . . . . . . . . . . . . . . . . . . . . . ....1963.2.1 Непрерывное равномерное распределение . . . . . . . . . . . . . . . . . . ....1963.2.2 Нормальное распределение . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....1973.2.3 Логнормальное распределение и распределение Стьюдента . . . . . . . ....2043.2.4 Гамма-распределение и экспоненциальное распределение . . . . . . . . ....2073.3 Немецкие танки, датская камбала и биномиальные обезьяны . . . . . . . ....2133.3.1 Выборка без замещения и военная разведка . . . . . . . . . . . . . . . . . ....2133.3.2 Байесовский анализ и некорректные априорные распределения . . . . ....2173.3.3 Как правильно ловить уток . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....224*3.3.4 Пример Джейнса: урна с шарами и биномиальные обезьяны . . . . . . . ....2283.4 Энтропия, KL-дивергенция и полное незнание . . . . . . . . . . . . . . . . . . . . ....2383.4.1 Энтропия как мера неопределённости . . . . . . . . . . . . . . . . . . . . . ....2383.4.2 Производные понятия: перекрёстная энтропия и KL-дивергенция . . ....2433.4.3 KL-дивергенция в машинном обучении . . . . . . . . . . . . . . . . . . . . ....2463.4.4 Информация Фишера и принцип максимума энтропии . . . . . . . . . ....251*3.4.5 Априорные распределения Джеффриса . . . . . . . . . . . . . . . . . . . . . ....2583.5 Оптимизация в машинном обучении . . . . . . . . . . . . . . . . . . . . . . . . . . . ....2653.5.1 Машинное обучение и невыпуклая оптимизация . . . . . . . . . . . . . . ....2653.5.2 Анализ градиентного спуска: проблемы с масштабом . . . . . . . . . . . ....2673.5.3 Стохастический градиентный спуск . . . . . . . . . . . . . . . . . . . . . . ....2733.5.4 Свойства стохастического градиентного спуска . . . . . . . . . . . . . . . ....275Глава 4. Линейная регрессия4.1 История вопроса и метод наименьших квадратов . . . . . . . . . . . . . . . ....2804.1.1 История вопроса: почему «регрессия»? . . . . . . . . . . . . . . . . . . . . ....2804.1.2 Метод наименьших квадратов . . . . . . . . . . . . . . . . . . . . . . . . . . ....2854.1.3 Коэффициент детерминации . . . . . . . . . . . . . . . . . . . . . . . . . . . ....2904.1.4 Функции признаков в линейной регрессии . . . . . . . . . . . . . . . . . . ....2934.1.5 Локальные признаки . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....2984.2 Оверфиттинг и регуляризация . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....3044.2.1 Оверфиттинг в регрессии с полиномиальными признаками. . . . . . . ....3044.2.2 Гребневая регрессия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....3094.2.3 Лассо-регрессия. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....3134.2.4 Геометрия регуляризации и другие её формы . . . . . . . . . . . . . . . . ....3144.3 Вероятностная интерпретация линейной регрессии . . . . . . . . . . . . . . ....3214.3.1 Правдоподобие линейной регрессии и гауссовский шум . . . . . . . . . ....3214.3.2 Все вероятностные предположения линейной регрессии . . . . . . . . . ....3244.3.3 Интерпретация коэффициентов: корреляция и причинность . . . . . . ....329*4.3.4 Вероятностная робастная регрессия: другие распределения шума . . . ....335*4.3.5 Другая робастная регрессия: RANSAC и оценка Тейла — Сена . . . . . . ....3384.4 Байесовский вывод в линейной регрессии . . . . . . . . . . . . . . . . . . . . . . . ....3464.4.1 Априорное и апостериорное распределения . . . . . . . . . . . . . . . . . ....3464.4.2 Пример байесовского вывода в линейной регрессии . . . . . . . . . . . . ....3514.4.3 Предсказательное распределение . . . . . . . . . . . . . . . . . . . . . . . . ....357*4.4.4 Оценка Джеймса — Штейна . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....3624.5 Case study: линейная регрессия и коронавирус . . . . . . . . . . . . . . . . ....3714.5.1 Постановка задачи . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....3714.5.2 Линейная регрессия на логарифмической шкале . . . . . . . . . . . . . . ....3724.5.3 Обучаем функцию распределения гауссиана . . . . . . . . . . . . . . . . . ....3754.5.4 Анализ результатов и выводы. . . . . . . . . . . . . . . . . . . . . . . . . . . ....376Глава 5. Классификация5.1 Постановка задачи, геометрия и вероятности . . . . . . . . . . . . . . . . . . ....3815.1.1 Геометрия классификации: разделяющие поверхности . . . . . . . . . . ....3815.1.2 Геометрия классификации для нескольких классов . . . . . . . . . . . . ....3855.1.3 Линейный дискриминант Фишера . . . . . . . . . . . . . . . . . . . . . . . ....3895.1.4 Порождающие модели для классификации: LDA и QDA. . . . . . . . . ....3975.2 Логистическая регрессия . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....4055.2.1 Как из линейной функции получить вероятности . . . . . . . . . . . . . ....4055.2.2 Максимизация правдоподобия . . . . . . . . . . . . . . . . . . . . . . . . . . ....4095.2.3 Другие сигмоиды и пробит-регрессия . . . . . . . . . . . . . . . . . . . . . ....4135.3 Байесовский вывод в логистической регрессии . . . . . . . . . . . . . . . ....4165.3.1 Лапласовская аппроксимация . . . . . . . . . . . . . . . . . . . . . . . . . . ....4165.3.2 Обобщённое нормальное распределение и формула Стирлинга . . . . ....418*5.3.3 Предсказательное распределение в логистической регрессии . . . . ....4215.4 Ирисы Фишера . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....4265.4.1 Набор данных . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....4265.4.2 Предварительный анализ данных . . . . . . . . . . . . . . . . . . . . . . . . ....4285.4.3 Сравнение классификаторов . . . . . . . . . . . . . . . . . . . . . . . . . . . ....4315.5 Общие замечания о классификаторах . . . . . . . . . . . . . . . . . . . . . . . . ....4355.5.1 Несбалансированные классы и перевзвешенная ошибка . . . . . . . . . ....4355.5.2 Калибровка классификаторов . . . . . . . . . . . . . . . . . . . . . . . . . . ....4395.5.3 Как изменить классификатор в новых условиях . . . . . . . . . . . . . . ....449*5.5.4 Проспективные и ретроспективные исследования. . . . . . . . . . . . . . ....4555.6 Порождающие модели и наивный Байес . . . . . . . . . . . . . . . . . . . . . . . ....4605.6.1 Порождающие и дискриминирующие модели . . . . . . . . . . . . . . . . ....4605.6.2 Вероятностные предположения наивного Байеса . . . . . . . . . . . . . . ....4635.6.3 Правдоподобие и сравнение с логистической регрессией. . . . . . . . . ....4655.6.4 Пример классификации текстов . . . . . . . . . . . . . . . . . . . . . . . . . ....467Глава 6. Несколько важных сюжетов6.1 Ближайшие соседи и проклятие размерности . . . . . . . . . . . . . . . . . . ....4786.1.1 Метод ближайших соседей. . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....4786.1.2 В чём проблема с ближайшими соседями? Проклятие размерности . ....4836.1.3 Эффект кожуры апельсина . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....4896.2 Статистическая теория принятия решений. . . . . . . . . . . . . . . . . . . . ....4946.2.1 Функция регрессии . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....4946.2.2 Анализ метода ближайших соседей . . . . . . . . . . . . . . . . . . . . . . . ....4966.2.3 Минимизация ожидаемой ошибки предсказания . . . . . . . . . . . . . . ....4986.2.4 Разложение на смещение, дисперсию и шум . . . . . . . . . . . . . . . . . ....5006.3 Эквивалентные ядра и ядерные методы . . . . . . . . . . . . . . . . . . . . . . ....5076.3.1 Другой взгляд на предсказания линейной регрессии . . . . . . . . . . . ....5076.3.2 Эквивалентное ядро в линейной регрессии . . . . . . . . . . . . . . . . . . ....5096.3.3 Ядерные методы . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....5116.4 Case study: байесовский вывод для гауссиана . . . . . . . . . . . . . . . . . . ....5146.4.1 Выводы для фиксированного среднего и фиксированной точности . . ....5146.4.2 Вывод для среднего и точности одновременно. . . . . . . . . . . . . . . . ....5196.4.3 Маргинализация апостериорного распределения . . . . . . . . . . . . . . ....5236.4.4 Предсказательное распределение для гауссиана . . . . . . . . . . . . . . ....5256.5 Оценки p (D): эмпирический Байес и сравнение моделей . . . . . . . . . ....5286.5.1 Маргинальное правдоподобие и подбор гиперпараметров . . . . . . . . ....5286.5.2 Оценка p (D) как метод сравнения моделей . . . . . . . . . . . . . . . . . ....5356.5.3 Байесовский информационный критерий. . . . . . . . . . . . . . . . . . . ....538*6.5.4 Информационные критерии Такеучи и Акаике . . . . . . . . . . . . . . ....5406.6 Экспоненциальное семейство . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....5536.6.1 Определение и примеры . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....5536.6.2 Моменты достаточных статистик . . . . . . . . . . . . . . . . . . . . . . . . ....5576.6.3 Максимизация правдоподобия . . . . . . . . . . . . . . . . . . . . . . . . . . ....5596.6.4 Сопряжённые априорные и предсказательные распределения . . ....5616.7 Обобщённые линейные модели . . . . . . . . . . . . . . . . . . . . . . . . . . ....5636.7.1 Определение GLM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....5636.7.2 Примеры и максимизация правдоподобия . . . . . . . . . . . . . . . . . . ....5656.7.3 Пуассоновская регрессия. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....5676.7.4 Отрицательная биномиальная регрессия . . . . . . . . . . . . . . . . . . . ....574Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....576Литература . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ....580

Машинное обучение давно уже стало синонимом искусственного интеллекта. Оно проникло во многие аспекты нашей жизни и стало одной из важнейших областей современной науки. Эта книга — путеводитель по ключевым идеям машинного обучения. Вы узнаете, как методы машинного обучения получаются из основных принципов теории вероятностей, пройдёте путь от теоремы Байеса до обобщённых линейных моделей и узнаете в лицо тех китов, на которых стоит весь современный искусственный интеллект. Множество увлекательных кейсов, практических примеров и интересных задач — от анализа ретроспективных научных исследований до эффекта "горячей руки" в баскетболе — помогут разобраться в самых сложных концепциях. Кроме того, книга может лечь в основу базовых курсов по машинному обучению.


Похожее:

Список отзывов:

Нет отзывов к книге.