От издательства....31
Предисловие....32
Глава 1. Введение....35
1.1. Что такое машинное обучение?....35
1.2. Обучение с учителем....36
1.2.1. Классификация....36
1.2.1.1. Пример: классификация ирисов....36
1.2.1.2. Разведочный анализ данных....38
1.2.1.3. Обучение классификатора....39
1.2.1.4. Минимизация эмпирического риска....40
1.2.1.5. Неопределенность....42
1.2.1.6. Оценка максимального правдоподобия....43
1.2.2. Регрессия....44
1.2.2.1. Линейная регрессия....45
1.2.2.2. Полиномиальная регрессия....46
1.2.2.3. Глубокие нейронные сети....47
1.2.3. Переобучение и обобщаемость....48
1.2.4. Теорема об отсутствии бесплатных завтраков....49
1.3. Обучение без учителя....49
1.3.1. Кластеризация....50
1.3.2. Обнаружение латентных «факторов изменчивости»....51
1.3.3. Самостоятельное обучение....52
1.3.4. Оценка обучения без учителя....53
1.4. Обучение с подкреплением....54
1.5. Данные....56
1.5.1. Некоторые широко известные наборы изображений....56
1.5.1.1. Небольшие наборы изображений....56
1.5.1.2. ImageNet....57
1.5.2. Некоторые широко известные наборы текстовых данных....58
1.5.2.1. Классификация текста....59
1.5.2.2. Машинный перевод....60
1.5.2.3. Другие задачи типа seq2seq....60
1.5.2.4. Языковое моделирование....60
1.5.3. Предобработка дискретных входных данных....61
1.5.3.1. Унитарное кодирование....61
1.5.3.2. Перекрестные произведения признаков....61
1.5.4. Предобработка текстовых данных....62
1.5.4.1. Модель мешка слов....62
1.5.4.2 TF-IDF....63
1.5.4.3. Погружения слов....64
1.5.4.4. Обработка новых слов....64
1.5.5. Обработка отсутствующих данных....65
1.6. Обсуждение....66
1.6.1. Связь МО с другими дисциплинами....66
1.6.2. Структура книги....67
1.6.3. Подводные камни....67
Часть I. Основания....69
Глава 2. Вероятность: одномерные модели....70
2.1. Введение....70
2.1.1. Что такое вероятность?....70
2.1.2. Типы неопределенности....71
2.1.3. Вероятность как обобщение логики....71
2.1.3.1. Вероятность события....71
2.1.3.2. Вероятность конъюнкции двух событий....72
2.1.3.3. Вероятность объединения двух событий....72
2.1.3.4. Условная вероятность одного события при условии другого....72
2.1.3.5. Независимость событий....73
2.1.3.6. Условная независимость событий....73
2.2. Случайные величины....73
2.2.1. Дискретные случайные величины....73
2.2.2. Непрерывные случайные величины....74
2.2.2.1. Функция распределения....74
2.2.2.2. Функция плотности распределения....75
2.2.2.3. Квантили....76
2.2.3. Множества связанных случайных величин....76
2.2.4. Независимость и условная независимость....77
2.2.5. Моменты распределения....78
2.2.5.1. Среднее распределения....79
2.2.5.2. Дисперсия распределения....79
2.2.5.3. Мода распределения....80
2.2.5.4. Условные моменты....81
2.2.6. Ограничения сводных статистик*....82
2.3. Формула Байеса....84
2.3.1. Пример: тестирование на COVID-19....85
2.3.2. Пример: парадокс Монти Холла....87
2.3.3. Обратные задачи*....89
2.4. Распределение Бернулли и биномиальное распределение....90
2.4.1. Определение....90
2.4.2. Сигмоидная (логистическая) функция....91
2.4.3. Бинарная логистическая регрессия....93
2.5. Категориальное и мультиномиальное распределение....94
2.5.1. Определение....94
2.5.2. Функция softmax....95
2.5.3. Многоклассовая логистическая регрессия....96
2.5.4. Логарифмирование, суммирование, потенцирование....97
2.6. Одномерное гауссово (нормальное) распределение....98
2.6.1. Функция распределения....99
2.6.2. Функция плотности вероятности....100
2.6.3. Регрессия....101
2.6.4. Почему гауссово распределение так широко используется?....102
2.6.5. Дельта-функция Дирака как предельный случай....103
2.7. Другие часто встречающиеся одномерные распределения*....103
2.7.1. Распределение Стьюдента....103
2.7.2. Распределение Коши....105
2.7.3. Распределение Лапласа....106
2.7.4. Бета-распределение....106
2.7.5. Гамма-распределение....107
2.7.6. Эмпирическое распределение....108
2.8. Преобразования случайных величин*....109
2.8.1. Дискретный случай....110
2.8.2. Непрерывный случай....110
2.8.3. Обратимые преобразования (биекции)....110
2.8.3.1. Замена переменных: скалярный случай....110
2.8.3.2. Замена переменных: многомерный случай....111
2.8.4. Моменты линейного преобразования....113
2.8.5. Теорема о свертке....114
2.8.6. Центральная предельная теорема....116
2.8.7. Аппроксимация Монте-Карло....116
2.9. Упражнения....117
Глава 3. Вероятность: многомерные модели....121
3.1. Совместные распределения нескольких случайных величин....121
3.1.1. Ковариация....121
3.1.2. Корреляция....122
3.1.3. Некоррелированные не значит независимые....123
3.1.4. Из коррелированности не следует наличие причинно-следственной связи....123
3.1.5. Парадокс Симпсона....124
3.2. Многомерное гауссово (нормальное) распределение....127
3.2.1. Определение....127
3.2.2. Расстояние Махаланобиса....128
3.2.3. Маргинальные и условные распределения для многомерного нормального распределения*....130
3.2.4. Пример: обусловливание двумерного гауссова распределения....131
3.2.5. Пример: подстановка отсутствующих значений*....132
3.3. Линейные гауссовы системы*....133
3.3.1. Формула Байеса для гауссовых распределений....133
3.3.2. Вывод*....134
3.3.3. Пример: вывод неизвестного скаляра....135
3.3.4. Пример: вывод неизвестного вектора....137
3.3.5. Пример: слияние показаний датчиков....138
3.4. Экспоненциальное семейство распределений*....140
3.4.1. Определение....140
3.4.2. Пример....141
3.4.3. Логарифмическая функция разбиения является производящей функцией полуинвариантов....142
3.4.4. Вывод максимальной энтропии экспоненциального семейства....142
3.5. Смесовые модели....143
3.5.1. Модель гауссовой смеси....144
3.5.2. Модели бернуллиевой смеси....146
3.6. Графовые вероятностные модели*....147
3.6.1. Представление....147
3.6.1.1. Пример: оросительная система....148
3.6.1.2. Пример: марковская цепь....149
3.6.2. Вывод....150
3.6.3. Обучение....150
3.6.3.1. Блочная нотация....151
3.7. Упражнения....152
Глава 4. Статистика....154
4.1. Введение....154
4.2. Оценка максимального правдоподобия (MLE)....154
4.2.1. Определение....155
4.2.2. Обоснование MLE....156
4.2.3. Пример: MLE для распределения Бернулли....157
4.2.4. Пример: MLE для категориального распределения....158
4.2.5. Пример: MLE для одномерного гауссова распределения....159
4.2.6. Пример: MLE для многомерного гауссова распределения....160
4.2.6.1. MLE среднего....160
4.2.6.2. MLE ковариационной матрицы....161
4.2.7. Пример: MLE для линейной регрессии....162
4.3. Минимизация эмпирического риска (ERM)....163
4.3.1. Пример: минимизации частоты неправильной классификации....164
4.3.2. Суррогатная потеря....164
4.4. Другие методы оценивания*....166
4.4.1. Метод моментов....166
4.4.1.1. Пример: MOM для одномерного гауссова распределения....166
4.4.1.2. Пример: MOM для равномерного распределения....167
4.4.2. Онлайновое (рекурсивное) оценивание....168
4.4.2.1. Пример: рекурсивная MLE среднего гауссова распределения....168
4.4.2.2. Экспоненциально взвешенное скользящее среднее....168
4.5. Регуляризация....170
4.5.1. Пример: оценка MAP для распределения Бернулли....171
4.5.2. Пример: оценка MAP для многомерного гауссова распределения*....172
4.5.2.1. Оценка усадки....172
4.5.3. Пример: уменьшение весов....173
4.5.4. Подбор регуляризатора с помощью контрольного набора....174
4.5.5. Перекрестная проверка....175
4.5.5.1. Правило одной стандартной ошибки....176
4.5.5.2. Пример: гребневая регрессия....177
4.5.6. Ранняя остановка....177
4.5.7. Больше данных....178
4.6. Байесовские статистики*....179
4.6.1. Сопряженные априорные распределения....180
4.6.2. Бета-биномиальная модель....181
4.6.2.1. Правдоподобие Бернулли....181
4.6.2.2. Биномиальное правдоподобие....181
4.6.2.3. Априорное распределение....182
4.6.2.4. Апостериорное распределение....182
4.6.2.5. Пример....182
4.6.2.6. Апостериорная мода (оценка MAP)....183
4.6.2.7. Апостериорное среднее....184
4.6.2.8. Апостериорная дисперсия....184
4.6.2.9. Апостериорное прогнозное распределение....185
4.6.2.10. Маргинальное правдоподобие....188
4.6.2.11. Смеси сопряженных априорных распределений....188
4.6.3. Дирихле-мультиномиальная модель....190
4.6.3.1. Правдоподобие....190
4.6.3.2. Априорное распределение....190
4.6.3.3. Апостериорное распределение....192
4.6.3.4. Апостериорное прогнозное распределение....193
4.6.3.5. Маргинальное правдоподобие....193
4.6.4. Гауссова-гауссова модель....194
4.6.4.1. Одномерный случай....194
4.6.4.2. Многомерный случай....196
4.6.5. За пределами сопряженных априорных распределений....197
4.6.5.1. Неинформативные априорные распределения....198
4.6.5.2. Иерархические априорные распределения....198
4.6.5.3. Эмпирические априорные распределения....198
4.6.6. Байесовские доверительные интервалы....199
4.6.7. Байесовское машинное обучение....201
4.6.7.1. Подстановочная аппроксимация....202
4.6.7.2. Пример: скалярный вход, бинарный выход....202
4.6.7.3. Пример: бинарный вход, скалярный выход....204
4.6.7.4. Вертикальное масштабирование....206
4.6.8. Вычислительные трудности....206
4.6.8.1. Сеточная аппроксимация....207
4.6.8.2. Квадратичная аппроксимация (Лапласа)....207
4.6.8.3. Вариационная аппроксимация....208
4.6.8.4. Аппроксимация методом Монте-Карло по схеме марковских цепей....209
4.7. Частотная статистика*....209
4.7.1. Выборочное распределение....210
4.7.2. Гауссова аппроксимация выборочного распределения MLE....211
4.7.3. Бутстрэпная аппроксимация выборочного распределения любого оценивателя....212
4.7.3.1. Бутстрэп – апостериорное распределение «для бедных»....212
4.7.4. Доверительные интервалы....213
4.7.5. Предостережения: доверительные интервалы и байесовские доверительные интервалы не одно и то же....215
4.7.6. Компромисс между смещением и дисперсией....216
4.7.6.1. Смещение оценки....216
4.7.6.2. Дисперсия оценки....217
4.7.6.3. Компромисс между смещением и дисперсией....217
4.7.6.4. Пример: оценка MAP среднего гауссова распределения....218
4.7.6.5. Пример: оценка MAP для линейной регрессии....219
4.7.6.6. Применение компромисса между смещением и дисперсией для классификации....221
4.8. Упражнения....221
Глава 5. Теория принятия решений....226
5.1. Байесовская теория принятия решений....226
5.1.1. Основы....226
5.1.2. Проблемы классификации....228
5.1.2.1. Бинарная потеря....229
5.1.2.2. Классификация с учетом стоимости....229
5.1.2.3. Классификация с возможностью отклонения примера....230
5.1.3. ROC-кривые....231
5.1.3.1. Матрицы неточностей классификации....231
5.1.3.2. Обобщение ROC-кривой в виде скаляра....234
5.1.3.3. Несбалансированность классов....234
5.1.4. Кривые точность–полнота....234
5.1.4.1. Вычисление точности и полноты....235
5.1.4.2. Обобщение кривых точность–полнота в виде скаляра....235
5.1.4.3. F-мера....236
5.1.4.4. Несбалансированность классов....236
5.1.5. Задачи регрессии....237
5.1.5.1. 𝓁2-потеря....237
5.1.5.2 𝓁1-потеря....238
5.1.5.3. Функция потерь Хьюбера....238
5.1.6. Задачи вероятностного предсказания....239
5.1.6.1. Расхождение КЛ, перекрестная энтропия и логарифмическая потеря....239
5.1.6.2. Правила верной оценки....240
5.2. Байесовская проверка гипотез....241
5.2.1. Пример: проверка симметричности монеты....242
5.2.2. Байесовский выбор модели....243
5.2.2.1. Пример: полиномиальная регрессия....244
5.2.3. Бритва Оккама....245
5.2.4. Связь между перекрестной проверкой и маргинальным правдоподобием....247
5.2.5. Информационные критерии....247
5.2.5.1. Байесовский информационный критерий (BIC)....248
5.2.5.2. Информационный критерий Акаике....248
5.2.5.3. Минимальная длина описания (MDL)....249
5.3. Частотная теория принятий решений....249
5.3.1. Вычисление риска оценки....249
5.3.1.1. Пример....250
5.3.1.2. Байесовский риск....251
5.3.1.3. Максимальный риск....252
5.3.2. Состоятельные оценки....252
5.3.3. Допустимые оценки....253
5.4. Минимизация эмпирического риска....254
5.4.1. Эмпирический риск....254
5.4.1.1. Ошибка аппроксимации и ошибка оценивания....255
5.4.1.2. Регуляризированный риск....256
5.4.2. Структурный риск....256
5.4.3. Перекрестная проверка....257
5.4.4. Статистическая теория обучения*....258
5.4.4.1. Нахождение границы ошибки обобщения....258
5.4.4.2. VC-размерность....259
5.5. Частотная проверка гипотез*....259
5.5.1. Критерий отношения правдоподобия....260
5.5.1.1. Пример: сравнение гауссовых средних....260
5.5.1.2. Простые и сложные гипотезы....261
5.5.2. Проверка значимости нулевой гипотезы....261
5.5.3. p-значения....262
5.5.4. О вреде p-значений....262
5.5.5. Почему же не все исповедуют байесовский подход?....265
5.6. Упражнения....267
Глава 6. Теория информации....269
6.1. Энтропия....269
6.1.1. Энтропия дискретных случайных величин....269
6.1.2. Перекрестная энтропия....272
6.1.3. Совместная энтропия....272
6.1.4. Условная энтропия....273
6.1.5. Перплексия....274
6.1.6. Дифференциальная энтропия непрерывных случайных величин*....275
6.1.6.1. Пример: энтропия гауссова распределения....275
6.1.6.2. Связь с дисперсией....276
6.1.6.3. Дискретизация....276
6.2. Относительная энтропия (расхождение KL)*....276
6.2.1. Определение....277
6.2.2. Интерпретация....277
6.2.3. Пример: расхождение КЛ между двумя гауссовыми распределениями....277
6.2.4. Неотрицательность расхождения КЛ....278
6.2.5. Расхождение КЛ и оценка максимального правдоподобия....279
6.2.6. Прямое и обратное расхождение КЛ....280
6.3. Взаимная информация*....281
6.3.1. Определение....281
6.3.2. Интерпретация....281
6.3.3. Пример....283
6.3.4. Условная взаимная информация....283
6.3.5. Взаимная информация как «обобщенный коэффициент корреляции»....284
6.3.6. Нормированная взаимная информация....285
6.3.7. Максимальный коэффициент информации....286
6.3.8. Неравенство обработки данных....288
6.3.9. Достаточные статистики....289
6.3.10. Неравенство Фано*....289
6.4. Упражнения....290
Глава 7. Линейная алгебра....293
7.1. Введение....293
7.1.1. Обозначения....293
7.1.1.1. Векторы....293
7.1.1.2. Матрицы....294
7.1.1.3. Тензоры....295
7.1.2. Векторные пространства....296
7.1.2.1. Сложение векторов и умножение вектора на скаляр....296
7.1.2.2. Линейная независимость, линейная оболочка и базисы....297
7.1.2.3. Линейные отображения и матрицы....297
7.1.2.4. Образ и ядро матрицы....298
7.1.2.5. Линейная проекция....298
7.1.3. Нормы вектора и матрицы....299
7.1.3.1. Нормы вектора....299
7.1.3.2. Нормы матрицы....300
7.1.4. Свойства матриц....301
7.1.4.1. След квадратной матрицы....301
7.1.4.2. Определитель квадратной матрицы....301
7.1.4.3. Ранг матрицы....302
7.1.4.4. Числа обусловленности....302
7.1.5. Специальные типы матриц....304
7.1.5.1. Диагональная матрица....304
7.1.5.2. Треугольные матрицы....305
7.1.5.3. Положительно определенные матрицы....305
7.1.5.4. Ортогональные матрицы....306
7.2. Умножение матриц....307
7.2.1. Умножение векторов....308
7.2.2. Произведение матрицы на вектор....308
7.2.3. Произведение матриц....309
7.2.4. Приложение: манипулирование матрицами данных....311
7.2.4.1. Суммирование срезов матрицы....311
7.2.4.2. Масштабирование строк и столбцов матрицы....312
7.2.4.3. Матрица сумм квадратов и матрица рассеяния....312
7.2.4.4. Матрица Грама....313
7.2.4.5. Матрица расстояний....314
7.2.5. Произведения Кронекера*....314
7.2.6. Суммирование Эйнштейна*....315
7.3. Обращение матриц....316
7.3.1. Обращение квадратной матрицы....316
7.3.2. Дополнения Шура *....317
7.3.3. Лемма об обращении матрицы*....318
7.3.4. Лемма об определителе матрицы*....319
7.3.5. Приложение: вывод условных распределений для многомерного гауссова распределения....320
7.4. Спектральное разложение....321
7.4.1. Основные сведения....321
7.4.2. Диагонализация....322
7.4.3. Собственные значения и собственные векторы симметричных матриц....323
7.4.3.1. Проверка на положительную определенность....323
7.4.4. Геометрия квадратичных форм....324
7.4.5. Стандартизация и отбеливание данных....324
7.4.6. Степенной метод....325
7.4.7. Понижение порядка....327
7.4.8. Собственные векторы оптимизируют квадратичные формы....327
7.5. Сингулярное разложение (SVD)....328
7.5.1. Основные сведения....328
7.5.2. Связь между сингулярным и спектральным разложением....329
7.5.3. Псевдообратная матрица....330
7.5.4. SVD и образ и ядро матрицы*....331
7.5.5. Усеченное сингулярное разложение....332
7.6. Другие матричные разложения*....333
7.6.1. LU-разложение....333
7.6.2. QR-разложение....334
7.6.3. Разложение Холески....335
7.6.3.1. Приложение: выборка из многомерного гауссова распределения....335
7.7. Решение систем линейных уравнений*....336
7.7.1. Решение квадратных систем....337
7.7.2. Решение недоопределенных систем (оценка по наименьшей норме)....337
7.7.3. Решение переопределенных систем (оценка по методу наименьших квадратов)....339
7.8. Матричное исчисление....340
7.8.1. Производные....340
7.8.2. Градиенты....341
7.8.3. Производная по направлению....341
7.8.4. Полная производная*....342
7.8.5. Якобиан....342
7.8.5.1. Умножение якобиана на вектор....343
7.8.5.2. Якобиан композиции....343
7.8.6. Гессиан....343
7.8.7. Градиенты часто встречающихся функций....344
7.8.7.1. Функции, отображающие скаляры в скаляры....344
7.8.7.2. Функции, отображающие векторы в скаляры....344
7.8.7.3. Функции, отображающие матрицы в скаляры....345
7.9. Упражнения....346
Глава 8. Оптимизация....347
8.1. Введение....347
8.1.1. Локальная и глобальная оптимизация....347
8.1.1.1. Условия оптимальности для локальных и глобальных оптимумов....348
8.1.2. Условная и безусловная оптимизация....349
8.1.3. Выпуклая и невыпуклая оптимизация....350
8.1.3.1. Выпуклые множества....350
8.1.3.2. Выпуклые функции....351
8.1.3.3. Характеристика выпуклых функций....352
8.1.3.4. Сильно выпуклые функции....353
8.1.4. Гладкая и негладкая оптимизация....354
8.1.4.1. Субградиенты....355
8.2. Методы первого порядка....356
8.2.1. Направление спуска....357
8.2.2. Размер шага (скорость обучения)....357
8.2.2.1. Постоянный размер шага....357
8.2.2.2. Линейный поиск....359
8.2.3. Скорость сходимости....360
8.2.4. Метод имульса....361
8.2.4.1. Импульс....361
8.2.4.2. Момент Нестерова....362
8.3. Методы второго порядка....363
8.3.1. Метод Ньютона....363
8.3.2. BFGS и другие квазиньютоновские методы....365
8.3.3. Методы на основе доверительных областей....366
8.4. Стохастический градиентный спуск....367
8.4.1. Приложение к задачам с конечной суммой....368
8.4.2. Пример: СГС для обучения модели линейной регрессии....369
8.4.3. Выбор размера шага (скорости обучения)....370
8.4.4. Итеративное усреднение....372
8.4.5. Уменьшение дисперсии*....373
8.4.5.1. SVRG....373
8.4.5.2. SAGA....374
8.4.5.3. Применение в глубоком обучении....374
8.4.6. Предобусловленный СГС....375
8.4.6.1. AdaGrad....375
8.4.6.2. RMSProp и AdaDelta....376
8.4.6.3. Adam....377
8.4.6.4. Проблемы, связанные с адаптивной скоростью обучения....377
8.4.6.5. Недиагональные матрицы предобусловливания....378
8.5. Условная оптимизация....378
8.5.1. Множители Лагранжа....379
8.5.1.1. Пример: двумерная квадратичная целевая функция с одним линейным ограничением в виде равенства....380
8.5.2. Условия Каруша–Куна–Таккера....381
8.5.3. Линейное программирование....382
8.5.3.1. Симплекс-метод....383
8.5.3.2. Приложения....383
8.5.4. Квадратичное программирование....383
8.5.4.1. Пример: квадратичная целевая функция в двумерном случае с линейными ограничениями в виде равенств....384
8.5.4.2. Приложения....385
8.5.5. Смешанно-целочисленное программирование*....385
8.6. Проксимальный градиентный метод*....385
8.6.1. Спроецированный градиентный спуск....386
8.6.2. Проксимальный оператор для регуляризатора по норме 𝓁1....388
8.6.3. Применение проксимального оператора в случае квантования....389
8.6.4. Инкрементные (онлайновые) проксимальные методы....390
8.7. Граничная оптимизация*....390
8.7.1. Общий алгоритм....390
8.7.2. EM-алгоритм....392
8.7.2.1. Нижняя граница....393
8.7.2.2. E-шаг....393
8.7.2.3. M-шаг....394
8.7.3. Пример: EM-алгоритм для смеси гауссовых распределений....395
8.7.3.1. E-шаг....395
8.7.3.2. M-шаг....395
8.7.3.3. Пример....396
8.7.3.4. Оценка MAP....396
8.7.3.5. Невыпуклость NLL....399
8.8. Оптимизация черного ящика и оптимизация без использования производных....400
8.9. Упражнения....400
Часть II. Линейные модели....401
Глава 9. Линейный дискриминантный анализ....402
9.1. Введение....402
9.2. Гауссов дискриминантный анализ....402
9.2.1. Квадратичные решающие границы....403
9.2.2. Линейные решающие границы....404
9.2.3. Связь между ЛДА и логистической регрессией....404
9.2.4. Обучение модели....406
9.2.4.1. Связанные ковариационные матрицы....407
9.2.4.2. Диагональные ковариационные матрицы....407
9.2.4.3. Оценка MAP....407
9.2.5. Классификатор по ближайшему центроиду....408
9.2.6. Линейный дискриминантный анализ Фишера*....408
9.2.6.1. Нахождение оптимального одномерного направления....410
9.2.6.2. Обобщение на большую размерность и несколько классов....412
9.3. Наивные байесовские классификаторы....413
9.3.1. Примеры моделей....414
9.3.2. Обучение модели....414
9.3.3. Байесовская интерпретация наивной байесовской модели....416
9.3.4. Связь между наивной байесовской моделью и логистической регрессией....417
9.4. Порождающие и дискриминантные классификаторы....418
9.4.1. Преимущества дискриминантных классификаторов....418
9.4.2. Преимущества порождающих классификаторов....419
9.4.3. Обработка отсутствующих признаков....420
9.5. Упражнения....420
Глава 10. Логистическая регрессия....421
10.1. Введение....421
10.2. Бинарная логистическая регрессия....421
10.2.1. Линейные классификаторы....422
10.2.2. Нелинейные классификаторы....423
10.2.3. Оценка максимального правдоподобия....424
10.2.3.1. Целевая функция....424
10.2.3.2. Оптимизация целевой функции....425
10.2.3.3. Вывод градиента....426
10.2.3.4. Вывод гессиана....427
10.2.4. Стохастический градиентный спуск....428
10.2.5. Алгоритм перцептрона....428
10.2.6. Метод наименьших квадратов с итеративным пересчетом весов....429
10.2.7. Оценка MAP....431
10.2.8. Стандартизация....432
10.3. Мультиномиальная логистическая регрессия....433
10.3.1. Линейные и нелинейные классификаторы....434
10.3.2. Оценка максимального правдоподобия....434
10.3.2.1. Целевая функция....435
10.3.2.2. Оптимизация целевой функции....435
10.3.2.3. Вывод градиента....435
10.3.2.4. Вывод гессиана....436
10.3.3. Градиентная оптимизация....437
10.3.4. Граничная оптимизация....437
10.3.5. Оценка MAP....439
10.3.6. Классификаторы максимальной энтропии....440
10.3.7. Иерархическая классификация....441
10.3.8. Работа с большим числом классов....441
10.3.8.1. Иерархическая softmax-модель....442
10.3.8.2. Несбалансированность классов и длинный хвост....442
10.4. Робастная логистическая регрессия*....444
10.4.1. Смесовая модель правдоподобия....444
10.4.2. Дважды смягченная потеря....445
10.5. Байесовская логистическая регрессия*....448
10.5.1. Аппроксимация Лапласа....448
10.5.2. Аппроксимация апостериорного прогнозного распределения....450
10.5.2.1. Аппроксимация Монте-Карло....452
10.5.2.2. Пробит-аппроксимация....452
10.6. Упражнения....453
Глава 11. Линейная регрессия....456
11.1. Введение....456
11.2. Линейная регрессия по методу наименьших квадратов....456
11.2.1. Терминология....456
11.2.2. Оценивание по методу наименьших квадратов....458
11.2.2.1. Обыкновенный метод наименьших квадратов....458
11.2.2.2. Геометрическая интерпретация метода наименьших квадратов....459
11.2.2.3. Алгоритмические проблемы....461
11.2.2.4. Метод взвешенных наименьших квадратов....462
11.2.3. Другие подходы к вычислению MLE....462
11.2.3.1. Нахождение смещения и углового коэффициента по отдельности....462
11.2.3.2. Простая линейная регрессия (одномерные входные данные)....463
11.2.3.3. Частная регрессия....463
11.2.3.4. Рекурсивное вычисление MLE....463
11.2.3.5. Вывод MLE с порождающей точки зрения....465
11.2.3.6. Вывод MLE для σ2....466
11.2.4. Измерение степени согласия оценки....466
11.2.4.1. Графики невязок....466
11.2.4.2. Точность предсказания и R2....467
11.3. Гребневая регрессия....468
11.3.1. Вычисление оценки MAP....468
11.3.1.1. Решение с использованием QR-разложения....469
11.3.1.2. Решение с использованием сингулярного разложения....470
11.3.2. Связь между гребневой регрессией и PCA....470
11.3.3. Выбор силы регуляризатора....472
11.4. Регрессия lasso....472
11.4.1. Оценка MAP с априорным распределением Лапласа (𝓁1-регуляризация)....473
11.4.2. Почему 𝓁1-регуляризация дает разреженные решения?....474
11.4.3. Жесткие и мягкие пороги....475
11.4.4. Путь регуляризации....477
11.4.5. Сравнение методов наименьших квадратов, lasso, гребневой регрессии и выбора подмножеств....479
11.4.6. Согласованность выбора переменных....480
11.4.7. Групповое lasso....482
11.4.7.1. Приложения....482
11.4.7.2. Штрафование по норме 𝓁2....483
11.4.7.3. Штрафование по норме 𝓁¥....483
11.4.7.4. Пример....484
11.4.8. Эластичная сеть (комбинация гребневой регрессии и lasso)....485
11.4.9. Алгоритмы оптимизации....486
11.4.9.1. Покоординатный спуск....486
11.4.9.2. Спроецированный градиентный спуск....487
11.4.9.3. Проксимальный градиентный спуск....487
11.4.9.4. LARS....487
11.5. Регрессионные сплайны*....488
11.5.1. B-сплайны в качестве базисных функций....489
11.5.2. Обучение линейно модели с помощью сплайнового базиса....490
11.5.3. Сглаживающие сплайны....491
11.5.4. Обобщенные аддитивные модели....491
11.6. Робастная линейная регрессия*....492
11.6.1. Правдоподобие Лапласа....492
11.6.1.1. Вычисление MLE методами линейного программирования....493
11.6.2. t-правдоподобие Стьюдента....494
11.6.3. Функция потерь Хьюбера....494
11.6.4. RANSAC....495
11.7. Байесовская линейная регрессия*....495
11.7.1. Априорные распределения....495
11.7.2. Апостериорные распределения....496
11.7.3. Пример....496
11.7.4. Вычисление апостериорного прогнозного распределения....498
11.7.5. Преимущество центрирования....499
11.7.6. Мультиколлинеарность....500
11.7.7. Автоматическое определение релевантности (ARD)*....502
11.8. Упражнения....503
Глава 12. Обобщенные линейные модели*....506
12.1. Введение....506
12.2. Примеры....507
12.2.1. Линейная регрессия....507
12.2.2. Биномиальная регрессия....507
12.2.3. Регрессия Пуассона....508
12.3. GLM с неканоническими функциями связи....509
12.4. Оценка максимального правдоподобия....510
12.5. Рабочий пример: предсказание обращений за страховыми выплатами....511
Часть III. Глубокие нейронные сети....514
Глава 13. Нейронные сети для структурированных данных....515
13.1. Введение....515
13.2. Многослойные перцептроны (МСП)....517
13.2.1. Задача XOR....517
13.2.2. Дифференцируемые МСП....518
13.2.3. Функции активации....519
13.2.4. Примеры моделей....520
13.2.4.1. МСП для классификации двумерных данных по двум категориям....520
13.2.4.2. МСП для классификации изображений....521
13.2.4.3. МСП для классификации текстов....523
13.2.4.4. МСП для гетероскедастической регрессии....524
13.2.5. Важность глубины....525
13.2.6. Революция глубокого обучения....526
13.2.7. Связи с биологией....527
13.3. Обратное распространение....530
13.3.1. Прямой и обратный режим дифференцирования....531
13.3.2. Дифференцирование в обратном режиме для многослойных перцептронов....532
13.3.3. Произведение вектора на якобиан для типичных слоев....534
13.3.3.1. Слой перекрестной энтропии....534
13.3.3.2. Поэлементная нелинейность....535
13.3.3.3. Линейный слой....536
13.3.3.4. Соберем все вместе....537
13.3.4. Графы вычислений....537
13.4. Обучение нейронных сетей....539
13.4.1. Настройка скорости обучения....540
13.4.2. Исчезающие и взрывные градиенты....540
13.4.3. Функции активации без насыщения....541
13.4.3.1. ReLU....543
13.4.3.2. ReLU без насыщения....543
13.4.3.3. Другие варианты....544
13.4.4. Остаточные связи....545
13.4.5. Инициализация параметров....546
13.4.5.1. Эвристические схемы инициализации....546
13.4.5.2. Инициализации, управляемые данными....547
13.4.6. Параллельное обучение....547
13.5. Регуляризация....549
13.5.1. Ранняя остановка....549
13.5.2. Уменьшение весов....549
13.5.3. Разреженные ГНС....549
13.5.4. Прореживание....550
13.5.5. Байесовские нейронные сети....552
13.5.6. Эффекты регуляризации, порождаемые стохастическим градиентным спуском*....552
13.6. Другие виды сетей прямого распространения*....554
13.6.1. Сети радиально-базисных функций....554
13.6.1.1. RBF-сеть для регрессии....555
13.6.1.2. RBF-сеть для классификации....555
13.6.2. Смесь экспертов....556
13.6.2.1. Смесь линейных экспертов....559
13.6.2.2. Глубокие сети экспертов....559
13.6.2.3. Иерархические смеси экспертов....560
13.7. Упражнения....560
Глава 14. Нейронные сети для изображений....562
14.1. Введение....562
14.2. Наиболее употребительные слои....564
14.2.1. Сверточные слои....564
14.2.1.1. Свертка в одномерном случае....564
14.2.1.2. Свертка в двумерном случае....565
14.2.1.3. Свертка как умножение матрицы на вектор....566
14.2.1.4. Граничные условия и дополнение....567
14.2.1.5. Свертка с шагом....569
14.2.1.6. Несколько входных и выходных каналов....569
14.2.1.7. Свертка 1´1 (поточечная)....570
14.2.2. Пулинговые слои....570
14.2.3. Соберем все вместе....572
14.2.4. Слои нормировки....572
14.2.4.1. Пакетная нормировка....573
14.2.4.2. Другие виды слоя нормировки....574
14.2.4.3. Сети без нормировки....576
14.3. Распространенные архитектуры классификации изображений....576
14.3.1. LeNet....576
14.3.2. AlexNet....578
14.3.3. GoogLeNet....579
14.3.4. ResNet....580
14.3.5. DenseNet....582
14.3.6. Поиск архитектуры нейронной сети....582
14.4. Другие формы свертки*....583
14.4.1. Дырявая свертка....583
14.4.2. Транспонированная свертка....584
14.4.3. Пространственная раздельная свертка....585
14.5. Решение других дискриминантных задач компьютерного зрения с помощью СНС*....586
14.5.1. Аннотирование изображений....587
14.5.2. Определение объектов....587
14.5.3. Сегментация экземпляров....589
14.5.4. Семантическая сегментация....590
14.5.5. Оценивание позы человека....591
14.6. Генерирование изображений посредством инвертирования СНС*....592
14.6.1. Преобразование обученного классификатора в порождающую модель....593
14.6.2. Априорные распределения изображений....593
14.6.2.1. Гауссово априорное распределения....594
14.6.2.2. Априорное распределение на основе полной вариации....595
14.6.3. Визуализация признаков, обученных с помощью СНС....596
14.6.4. Deep Dream....596
14.6.5. Нейронный перенос стиля....598
14.6.5.1. Как это работает....599
14.6.5.2. Ускорение метода....601
Глава 15. Нейронные сети для последовательностей....603
15.1. Введение....603
15.2. Рекуррентные нейронные сети (РНС)....603
15.2.1. Vec2Seq (генерирование последовательностей)....603
15.2.1.1. Модели....604
15.2.1.2. Приложения....605
15.2.2. Seq2Vec (классификация последовательностей)....607
15.2.3. Seq2Seq (трансляция последовательностей)....608
15.2.3.1. Выровненный случай....608
15.2.3.2. Невыровненный случай....609
15.2.4. Принуждение со стороны учителя....610
15.2.5. Обратное распространение во времени....611
15.2.6. Исчезающие и взрывные градиенты....613
15.2.7. Вентильная и долгосрочная память....613
15.2.7.1. Управляемые рекуррентные блоки (GRU)....613
15.2.7.2. Долгая краткосрочная память (LSTM)....614
15.2.8. Лучевой поиск....616
15.3. Одномерные СНС....618
15.3.1. Применение одномерных СНС для классификации последовательностей....619
15.3.2. Применение каузальных одномерных СНС для генерирования последовательностей....619
15.4. Модель внимания....621
15.4.1. Механизм внимания как мягкий поиск в словаре....621
15.4.2. Ядерная регрессия как непараметрическое внимание....623
15.4.3. Параметрическое внимание....624
15.4.4. Модель Seq2Seq с вниманием....625
15.4.5. Модель Seq2vec с вниманием (классификация текста)....627
15.4.6. Модель Seq+Seq2Vec с вниманием (классификация пар предложений)....628
15.4.7. Мягкое и жесткое внимание....630
15.5. Трансформеры....630
15.5.1. Самовнимание....631
15.5.2. Многопутевое внимание....633
15.5.3. Позиционное кодирование....633
15.5.4. Соберем все вместе....635
15.5.5. Сравнение трансформеров, СНС и HYC....637
15.5.6. Применение трансформеров для изображений*....637
15.5.7. Другие варианты трансформеров*....639
15.6. Эффективные трансформеры*....640
15.6.1. Фиксированные необучаемые локализованные паттерны внимания....640
15.6.2. Обучаемые паттерны разреженного внимания....641
15.6.3. Методы с добавлением памяти и рекуррентные методы....641
15.6.4. Низкоранговые и ядерные методы....641
15.7. Языковые модели и обучение представлений без учителя....644
15.7.1. ELMo....644
15.7.2. BERT....645
15.7.2.1. Замаскированная языковая модель....646
15.7.2.2. Задача предсказания следующего предложения....646
15.7.2.3. Дообучение BERT для приложений NLP....648
15.7.3. GPT....650
15.7.3.1. Приложения GPT....650
15.7.4. T5....650
15.7.5. Обсуждение....651
Часть IV. Непараметрические модели....653
Глава 16. Методы на основе эталонов....654
16.1. Классификация методом K ближайших соседей (KNN)....654
16.1.1. Пример....655
16.1.2. Проклятие размерности....656
16.1.3. Снижение требований к скорости и памяти....657
16.1.4. Распознавание открытого множества....658
16.1.4.1. Онлайновое обучение, обнаружение посторонних и распознавание открытого множества....658
16.1.4.2. Другие задачи открытого мира....659
16.2. Обучение метрик....659
16.2.1. Линейные и выпуклые методы....660
16.2.1.1. Метод ближайших соседей с большим зазором....660
16.2.1.2. Анализ компонентов соседства....661
16.2.1.3. Анализ латентных совпадений....661
16.2.2. Глубокое обучение метрики....662
16.2.3. Потери классификации....663
16.2.4. Потери ранжирования....663
16.2.4.1. Попарная (сопоставительная) потеря и сиамские сети....664
16.2.4.2. Триплетная потеря....664
16.2.4.3. N-парная потеря....665
16.2.5. Ускорение оптимизации потери ранжирования....666
16.2.5.1. Добычные методы....666
16.2.5.2. Методы на основе представителей....666
16.2.5.3. Оптимизация верхней границы....667
16.2.6. Другие приемы глубокого обучения метрики....669
16.3. Ядерные оценки плотности....670
16.3.1. Ядра плотности....670
16.3.2. Оконная оценка плотности Парцена....671
16.3.3. Как выбирать полосу пропускания....673
16.3.4. От KDE к KNN-классификации....673
16.3.5. Ядерная регрессия....674
16.3.5.1. Оценка среднего Надарая–Ватсона....674
16.3.5.2. Оценка дисперсии....676
16.3.5.3. Локально взвешенная регрессия....676
Глава 17. Ядерные методы*....677
17.1. Ядра Мерсера....677
17.1.1. Теорема Мерсера....679
17.1.2. Некоторые популярные ядра Мерсера....679
17.1.2.1. Стационарные ядра для вещественных векторов....679
17.1.2.2. Создание новых ядер из существующих....682
17.1.2.3. Комбинирование ядер с помощью сложения и умножения....683
17.1.2.4. Ядра для структурированных входов....684
17.2. Гауссовы процессы....684
17.2.1. Незашумленные наблюдения....685
17.2.2. Зашумленные наблюдения....686
17.2.3. Сравнение с ядерной регрессией....687
17.2.4. Пространство весов и пространство функций....688
17.2.5. Численные проблемы....689
17.2.6. Оценивание параметров ядра....689
17.2.6.1. Эмпирическая байесовская оценка....690
17.2.6.2. Байесовский вывод....692
17.2.7. Применение гауссовых процессов для классификации....693
17.2.8. Связи с глубоким обучением....695
17.2.9. Масштабирование ГП на большие наборы данных....695
17.2.9.1. Разреженные аппроксимации....695
17.2.9.2. Распараллеливание с использованием структуры ядерной матрицы....695
17.2.9.3. Аппроксимация случайными признаками....696
17.3. Метод опорных векторов....697
17.3.1. Классификаторы с широким зазором....698
17.3.2. Двойственная задача....700
17.3.3. Классификаторы с мягким зазором....702
17.3.4. Ядерный трюк....703
17.3.5. Преобразование выходов SVM в вероятности....704
17.3.6. Связь с логистической регрессией....705
17.3.7. Многоклассовая классификация с применением SVM....706
17.3.8. Как выбирать регуляризатор C....707
17.3.9. Ядерная гребневая регрессия....708
17.3.10. Применение SVM для регрессии....709
17.4. Метод разреженных векторов....712
17.4.1. Метод релевантных векторов....712
17.4.2. Сравнение разреженных и плотных ядерных методов....712
17.5. Упражнения....716
Глава 18. Деревья, леса, бэггинг и бустинг....717
18.1. Деревья классификации и регрессии....717
18.1.1. Определение модели....717
18.1.2. Обучение модели....718
18.1.3. Регуляризация....720
18.1.4. Обработка отсутствующих входных признаков....721
18.1.5. Плюсы и минусы....721
18.2. Ансамблевое обучение....722
18.2.1. Стековое обобщение....723
18.2.2. Ансамблевое обучение не то же, что байесовское усреднение моделей....723
18.3. Бэггинг....724
18.4. Случайные леса....725
18.5. Бустинг....726
18.5.1. Прямое поэтапное аддитивное моделирование....727
18.5.2. Квадратичная потеря и бустинг наименьших квадратов....728
18.5.3. Экспоненциальная потеря и AdaBoost....728
18.5.4. LogitBoost....732
18.5.5. Градиентный бустинг....733
18.5.5.1. Градиентный бустинг деревьев....735
18.5.5.2. XGBoost....735
18.6. Интерпретация ансамблей деревьев....737
18.6.1. Важность признаков....737
18.6.2. Графики частичной зависимости....739
Часть V. За пределами обучения с учителем....740
Глава 19. Обучение при меньшем числе помеченных примеров....741
19.1. Приращение данных....741
19.1.1. Примеры....741
19.1.2. Теоретическое обоснование....742
19.2. Перенос обучения....743
19.2.1. Дообучение....743
19.2.2. Адаптеры....745
19.2.3. Предобучение с учителем....746
19.2.4. Предобучение без учителя (самостоятельное обучение)....747
19.2.4.1. Задачи подстановки....748
19.2.4.2. Замещающие задачи....749
19.2.4.3. Сопоставительные задачи....749
19.2.4.4. SimCLR....749
19.2.4.5. CLIP....752
19.2.5. Адаптация домена....753
19.3. Обучение с частичным привлечением учителя....754
19.3.1. Самообучение и псевдопометка....755
19.3.2. Минимизация энтропии....756
19.3.2.1. Кластерное допущение....757
19.3.2.2. Взаимная информация между входом и выходом....758
19.3.3. Совместное обучение....759
19.3.4. Распространение меток на графах....760
19.3.5. Регуляризация по согласованности....761
19.3.6. Глубокие порождающие модели*....763
19.3.6.1. Вариационные автокодировщики....764
19.3.6.2. Порождающие состязательные сети....766
19.3.6.3. Нормализующие потоки....767
19.3.7. Сочетание самостоятельного обучения и обучения с частичным привлечением учителя....768
19.4. Активное обучение....769
19.4.1. Подход на основе теории принятия решений....770
19.4.2. Теоретико-информационный подход....770
19.4.3. Пакетное активное обучение....771
19.5. Метаобучение....771
19.5.1. Метаобучение, не зависящее от модели (MAML)....772
19.6. Обучение на малом числе примеров....773
19.6.1. Сопоставляющие сети....774
19.7. Обучение со слабым учителем....775
19.8. Упражнения....776
Глава 20. Понижение размерности....777
20.1. Метод главных компонент....777
20.1.1. Примеры....778
20.1.2. Вывод алгоритма....780
20.1.2.1. Базовый случай....780
20.1.2.2. Оптимальный вектор весов максимизирует дисперсию спроецированных данных....781
20.1.2.3. Шаг индукции....782
20.1.3. Вычислительные трудности....783
20.1.3.1. Ковариационная матрица и корреляционная матрица....783
20.1.3.2. Работа с данными высокой размерности....784
20.1.3.3. Вычисление PCA с использованием SVD....784
20.1.4. Выбор числа латентных измерений....785
20.1.4.1. Ошибка реконструкции....785
20.1.4.2. Графики каменистой осыпи....786
20.1.4.3. Правдоподобие профиля....786
20.2. Факторный анализ*....788
20.2.1. Порождающая модель....788
20.2.2. Вероятностный PCA....790
20.2.3. EM-алгоритм для ФА/PPCA....791
20.2.3.1. EM-алгоритм для ФА....792
20.2.3.2. EM-алгоритм для (P)PCA....792
20.2.3.3. Преимущества....793
20.2.4. Неидентифицируемость параметров....795
20.2.5. Нелинейный факторный анализ....796
20.2.6. Смеси факторных анализаторов....796
20.2.7. Факторный анализ экспоненциального семейства....798
20.2.7.1. Пример: бинарный PCA....799
20.2.7.2. Пример: категориальный PCA....799
20.2.8. Модели факторного анализа для парных данных....800
20.2.8.1. PCA с учителем....800
20.2.8.2. Метод частичных наименьших квадратов....801
20.2.8.3. Канонический корреляционный анализ....802
20.3. Автокодировщики....803
20.3.1. Автокодировщики с сужением....803
20.3.2. Шумоподавляющие автокодировщики....805
20.3.3. Сжимающие автокодировщики....807
20.3.4. Разреженные автокодировщики....807
20.3.5. Вариационные автокодировщики....809
20.3.5.1. Обучение VAE....810
20.3.5.2. Перепараметризация....810
20.3.5.3. Сравнение VAE с автокодировщиками....812
20.4. Обучение многообразий*....814
20.4.1. Что такое многообразие?....814
20.4.2. Гипотеза многообразия....815
20.4.3. Подходы к обучению многообразий....816
20.4.4. Многомерное шкалирование....817
20.4.4.1. Классическое ММШ....817
20.4.4.2. Метрическое ММШ....818
20.4.4.3. Неметрическое ММШ....819
20.4.4.4. Отображение Саммона....819
20.4.5. Isomap....820
20.4.6. Ядерный PCA....821
20.4.7. Максимальное раскрытие дисперсии....823
20.4.8. Локально линейное погружение....824
20.4.9. Лапласовы собственные отображения....825
20.4.9.1. Использование собственных векторов лапласиана графа для вычисления погружений....825
20.4.9.2. Что такое лапласиан графа?....826
20.4.10. t-SNE....828
20.4.10.1. Стохастическое погружение соседей....828
20.4.10.2. Симметричное SNE....830
20.4.10.3. SNE с t-распределением....830
20.4.10.4. Выбор линейного масштаба....831
20.4.10.5. Вычислительные проблемы....832
20.4.10.6. UMAP....832
20.5. Погружения слов....833
20.5.1. Латентно-семантический анализ и индексирование....833
20.5.1.1. Латентно-семантическое индексирование....833
20.5.1.2. Латентно-семантический анализ....834
20.5.1.3. Поточечная взаимная информация....835
20.5.2. Word2vec....836
20.5.2.1. Модель Word2vec CBOW....836
20.5.2.2. Скипграммная модель Word2vec....836
20.5.2.3. Отрицательная выборка....837
20.5.3. GloVE....838
20.5.4. Аналогичные слова....839
20.5.5. Модель погружений слов RAND-WALK....840
20.5.6. Контекстуальные погружения слов....841
20.6. Упражнения....841
Глава 21. Кластеризация....844
21.1. Введение....844
21.1.1. Оценивание выхода методов кластеризации....844
21.1.1.1. Чистота....845
21.1.1.2. Индекс Рэнда....845
21.1.1.3. Взаимная информация....846
21.2. Иерархическая агломеративная кластеризация....847
21.2.1. Алгоритм....848
21.2.1.1. Одиночная связь....849
21.2.1.2. Полная связь....849
21.2.1.3. Средняя связь....850
21.2.2. Пример....850
21.2.3. Расширения....851
21.3. Кластеризация методом K средних....852
21.3.1. Алгоритм....852
21.3.2. Примеры....853
21.3.2.1. Кластеризация точек на плоскости....853
21.3.2.2. Кластеризация временных рядов экспрессии генов дрожжей....853
21.3.3. Векторное квантование....854
21.3.4. Алгоритм K-means++....855
21.3.5. Алгоритм K медоидов....856
21.3.6. Способы ускорения....857
21.3.7. Выбор числа кластеров K....858
21.3.7.1. Минимизация искажения....858
21.3.7.2. Максимизация маргинального правдоподобия....858
21.3.7.3. Силуэтный коэффициент....859
21.3.7.4. Инкрементное увеличение количества компонент смеси....861
21.3.7.5. Методы разреженного оценивания....861
21.4. Кластеризация с помощью смесовых моделей....861
21.4.1. Смеси гауссовых распределений....861
21.4.1.1. Метод K средних – частный случай EM-алгоритма....862
21.4.1.2. Неидентифицируемость и переключение метки....862
21.4.1.3. Байесовский выбор модели....865
21.4.2. Смеси распределений Бернулли....866
21.5. Спектральная кластеризация*....866
21.5.1. Нормализованные разрезы....867
21.5.2. Собственные векторы лапласиана графа кодируют кластеризацию....867
21.5.3. Пример....868
21.5.4. Связь с другими методами....869
21.5.4.1. Связь с kPCA....869
21.5.4.2. Связь с анализом случайного блуждания....869
21.6. Бикластеризация*....870
21.6.1. Базовая бикластеризация....870
21.6.2. Модели вложенного разбиения (Crosscat)....871
Глава 22. Рекомендательные системы....874
22.1. Явная обратная связь....874
22.1.1. Наборы данных....875
22.1.2. Коллаборативная фильтрация....875
22.1.3. Матричная факторизация....876
22.1.3.1. Вероятностная матричная факторизация....877
22.1.3.2. Пример: Netflix....877
22.1.3.3. Пример: MovieLens....878
22.1.4. Автокодировщики....879
22.2. Неявная обратная связь....880
22.2.1. Байесовское персонализированное ранжирование....881
22.2.2. Машины факторизации....882
22.2.3. Нейронная матричная факторизация....883
22.3. Использование побочной информации....883
22.4. Компромисс между исследованием и использованием....885
Глава 23. Погружения графов*....886
23.1. Введение....886
23.2. Погружение графа как задача о кодировщике и декодере....888
23.3. Поверхностные погружения графов....890
23.3.1. Обучение погружений без учителя....890
23.3.2. На основе расстояния: евклидовы методы....891
23.3.3. На основе расстояния: неевклидовы методы....891
23.3.4. На основе внешнего произведения: методы матричной факторизации....892
23.3.5. На основе внешнего произведения: скипграммные методы....893
23.3.6. Обучение погружений с учителем....895
23.3.6.1. Распространение меток....895
23.4. Графовые нейронные сети....896
23.4.1. Графовые нейронные сети передачи сообщений....896
23.4.2. Спектральные свертки графов....898
23.4.3. Пространственные свертки графов....898
23.4.3.1. Выборочные пространственные методы....899
23.4.3.2. Пространственные методы на основе механизма внимания....899
23.4.3.3. Геометрические пространственные методы....900
23.4.4. Неевклидовы графовые свертки....900
23.5. Глубокие погружения графов....901
23.5.1. Обучение погружений без учителя.....901
23.5.1.1. Структурное погружение с помощью глубокой сети....901
23.5.1.2. Вариационные графовые автокодировщики....902
23.5.1.3. Итеративное порождающее моделирование графов (Graphite)....903
23.5.1.4. Методы на основе сопоставительных потерь....903
23.5.2. Обучение погружений с частичным привлечением учителя....904
23.5.2.1. SemiEmb....904
23.5.2.2. Planetoid....904
23.6. Приложения....905
23.6.1. Приложения без учителя....905
23.6.1.1. Реконструкция графа....905
23.6.1.2. Предсказание связей....906
23.6.1.3. Кластеризация....907
23.6.1.4. Визуализация....907
23.6.2. Приложения с учителем....908
23.6.2.1. Классификация вершин....908
23.6.2.2. Классификация графов....908
Приложение А. Обозначения....910
A.1. Введение....910
A.2. Общепринятые математические символы....910
A.3. Функции....911
A.3.1. Функции с одним аргументом....911
A.3.2. Функции двух аргументов....911
A.3.3. Функции более двух аргументов....912
A.4. Линейная алгебра....912
A.4.1. Общие обозначения....912
A.4.2. Векторы....912
A.4.3. Матрицы....913
A.4.4. Матричное исчисление....913
A.5. Оптимизация....914
A.6. Вероятность....914
A.7. Теория информации....915
A.8. Статистика и машинное обучение....916
A.8.1. Обучение с учителем....916
A.8.2. Обучение без учителя и порождающие модели....916
A.8.3. Байесовский вывод....917
A.9. Аббревиатуры....917
Предметный указатель....919
Данный классический труд содержит обстоятельное современное введение в машинное обучение (включая глубокое обучение), рассматриваемое сквозь объединяющую призму вероятностного моделирования и байесовской теории принятия решений. Включен базовый математический аппарат (в т. ч. элементы линейной алгебры и теории оптимизации), основы обучения с учителем (включая линейную и логистическую регрессию и глубокие нейронные сети), а также более сложные темы (в т. ч. перенос обучения и обучение без учителя). Упражнения в конце глав помогут читателям применить полученные знания, а в приложении имеется сводка используемых обозначений.
В основу издания легла вышедшая в 2012 году книга Кэвина Мэрфи «Machine Learning: A Probabilistic Perspective». Однако это совершенно новая работа, отражающая многие достижения, случившиеся в этой области за последние 10 лет.