Вероятностное машинное обучение: Введение

Автор: Мэрфи Кэвин Патрик

Дата выхода: 2022

Издательство: ДМК Пресс

Количество страниц: 942

Размер файла: 32,8 МБ

Тип файла: PDF

Добавил: codelibs

Проверить на вирусы

От издательства....31

Предисловие....32

Глава 1. Введение....35

1.1. Что такое машинное обучение?....35

1.2. Обучение с учителем....36

1.2.1. Классификация....36

1.2.1.1. Пример: классификация ирисов....36

1.2.1.2. Разведочный анализ данных....38

1.2.1.3. Обучение классификатора....39

1.2.1.4. Минимизация эмпирического риска....40

1.2.1.5. Неопределенность....42

1.2.1.6. Оценка максимального правдоподобия....43

1.2.2. Регрессия....44

1.2.2.1. Линейная регрессия....45

1.2.2.2. Полиномиальная регрессия....46

1.2.2.3. Глубокие нейронные сети....47

1.2.3. Переобучение и обобщаемость....48

1.2.4. Теорема об отсутствии бесплатных завтраков....49

1.3. Обучение без учителя....49

1.3.1. Кластеризация....50

1.3.2. Обнаружение латентных «факторов изменчивости»....51

1.3.3. Самостоятельное обучение....52

1.3.4. Оценка обучения без учителя....53

1.4. Обучение с подкреплением....54

1.5. Данные....56

1.5.1. Некоторые широко известные наборы изображений....56

1.5.1.1. Небольшие наборы изображений....56

1.5.1.2. ImageNet....57

1.5.2. Некоторые широко известные наборы текстовых данных....58

1.5.2.1. Классификация текста....59

1.5.2.2. Машинный перевод....60

1.5.2.3. Другие задачи типа seq2seq....60

1.5.2.4. Языковое моделирование....60

1.5.3. Предобработка дискретных входных данных....61

1.5.3.1. Унитарное кодирование....61

1.5.3.2. Перекрестные произведения признаков....61

1.5.4. Предобработка текстовых данных....62

1.5.4.1. Модель мешка слов....62

1.5.4.2 TF-IDF....63

1.5.4.3. Погружения слов....64

1.5.4.4. Обработка новых слов....64

1.5.5. Обработка отсутствующих данных....65

1.6. Обсуждение....66

1.6.1. Связь МО с другими дисциплинами....66

1.6.2. Структура книги....67

1.6.3. Подводные камни....67

Часть I. Основания....69

Глава 2. Вероятность: одномерные модели....70

2.1. Введение....70

2.1.1. Что такое вероятность?....70

2.1.2. Типы неопределенности....71

2.1.3. Вероятность как обобщение логики....71

2.1.3.1. Вероятность события....71

2.1.3.2. Вероятность конъюнкции двух событий....72

2.1.3.3. Вероятность объединения двух событий....72

2.1.3.4. Условная вероятность одного события при условии другого....72

2.1.3.5. Независимость событий....73

2.1.3.6. Условная независимость событий....73

2.2. Случайные величины....73

2.2.1. Дискретные случайные величины....73

2.2.2. Непрерывные случайные величины....74

2.2.2.1. Функция распределения....74

2.2.2.2. Функция плотности распределения....75

2.2.2.3. Квантили....76

2.2.3. Множества связанных случайных величин....76

2.2.4. Независимость и условная независимость....77

2.2.5. Моменты распределения....78

2.2.5.1. Среднее распределения....79

2.2.5.2. Дисперсия распределения....79

2.2.5.3. Мода распределения....80

2.2.5.4. Условные моменты....81

2.2.6. Ограничения сводных статистик*....82

2.3. Формула Байеса....84

2.3.1. Пример: тестирование на COVID-19....85

2.3.2. Пример: парадокс Монти Холла....87

2.3.3. Обратные задачи*....89

2.4. Распределение Бернулли и биномиальное распределение....90

2.4.1. Определение....90

2.4.2. Сигмоидная (логистическая) функция....91

2.4.3. Бинарная логистическая регрессия....93

2.5. Категориальное и мультиномиальное распределение....94

2.5.1. Определение....94

2.5.2. Функция softmax....95

2.5.3. Многоклассовая логистическая регрессия....96

2.5.4. Логарифмирование, суммирование, потенцирование....97

2.6. Одномерное гауссово (нормальное) распределение....98

2.6.1. Функция распределения....99

2.6.2. Функция плотности вероятности....100

2.6.3. Регрессия....101

2.6.4. Почему гауссово распределение так широко используется?....102

2.6.5. Дельта-функция Дирака как предельный случай....103

2.7. Другие часто встречающиеся одномерные распределения*....103

2.7.1. Распределение Стьюдента....103

2.7.2. Распределение Коши....105

2.7.3. Распределение Лапласа....106

2.7.4. Бета-распределение....106

2.7.5. Гамма-распределение....107

2.7.6. Эмпирическое распределение....108

2.8. Преобразования случайных величин*....109

2.8.1. Дискретный случай....110

2.8.2. Непрерывный случай....110

2.8.3. Обратимые преобразования (биекции)....110

2.8.3.1. Замена переменных: скалярный случай....110

2.8.3.2. Замена переменных: многомерный случай....111

2.8.4. Моменты линейного преобразования....113

2.8.5. Теорема о свертке....114

2.8.6. Центральная предельная теорема....116

2.8.7. Аппроксимация Монте-Карло....116

2.9. Упражнения....117

Глава 3. Вероятность: многомерные модели....121

3.1. Совместные распределения нескольких случайных величин....121

3.1.1. Ковариация....121

3.1.2. Корреляция....122

3.1.3. Некоррелированные не значит независимые....123

3.1.4. Из коррелированности не следует наличие причинно-следственной связи....123

3.1.5. Парадокс Симпсона....124

3.2. Многомерное гауссово (нормальное) распределение....127

3.2.1. Определение....127

3.2.2. Расстояние Махаланобиса....128

3.2.3. Маргинальные и условные распределения для многомерного нормального распределения*....130

3.2.4. Пример: обусловливание двумерного гауссова распределения....131

3.2.5. Пример: подстановка отсутствующих значений*....132

3.3. Линейные гауссовы системы*....133

3.3.1. Формула Байеса для гауссовых распределений....133

3.3.2. Вывод*....134

3.3.3. Пример: вывод неизвестного скаляра....135

3.3.4. Пример: вывод неизвестного вектора....137

3.3.5. Пример: слияние показаний датчиков....138

3.4. Экспоненциальное семейство распределений*....140

3.4.1. Определение....140

3.4.2. Пример....141

3.4.3. Логарифмическая функция разбиения является производящей функцией полуинвариантов....142

3.4.4. Вывод максимальной энтропии экспоненциального семейства....142

3.5. Смесовые модели....143

3.5.1. Модель гауссовой смеси....144

3.5.2. Модели бернуллиевой смеси....146

3.6. Графовые вероятностные модели*....147

3.6.1. Представление....147

3.6.1.1. Пример: оросительная система....148

3.6.1.2. Пример: марковская цепь....149

3.6.2. Вывод....150

3.6.3. Обучение....150

3.6.3.1. Блочная нотация....151

3.7. Упражнения....152

Глава 4. Статистика....154

4.1. Введение....154

4.2. Оценка максимального правдоподобия (MLE)....154

4.2.1. Определение....155

4.2.2. Обоснование MLE....156

4.2.3. Пример: MLE для распределения Бернулли....157

4.2.4. Пример: MLE для категориального распределения....158

4.2.5. Пример: MLE для одномерного гауссова распределения....159

4.2.6. Пример: MLE для многомерного гауссова распределения....160

4.2.6.1. MLE среднего....160

4.2.6.2. MLE ковариационной матрицы....161

4.2.7. Пример: MLE для линейной регрессии....162

4.3. Минимизация эмпирического риска (ERM)....163

4.3.1. Пример: минимизации частоты неправильной классификации....164

4.3.2. Суррогатная потеря....164

4.4. Другие методы оценивания*....166

4.4.1. Метод моментов....166

4.4.1.1. Пример: MOM для одномерного гауссова распределения....166

4.4.1.2. Пример: MOM для равномерного распределения....167

4.4.2. Онлайновое (рекурсивное) оценивание....168

4.4.2.1. Пример: рекурсивная MLE среднего гауссова распределения....168

4.4.2.2. Экспоненциально взвешенное скользящее среднее....168

4.5. Регуляризация....170

4.5.1. Пример: оценка MAP для распределения Бернулли....171

4.5.2. Пример: оценка MAP для многомерного гауссова распределения*....172

4.5.2.1. Оценка усадки....172

4.5.3. Пример: уменьшение весов....173

4.5.4. Подбор регуляризатора с помощью контрольного набора....174

4.5.5. Перекрестная проверка....175

4.5.5.1. Правило одной стандартной ошибки....176

4.5.5.2. Пример: гребневая регрессия....177

4.5.6. Ранняя остановка....177

4.5.7. Больше данных....178

4.6. Байесовские статистики*....179

4.6.1. Сопряженные априорные распределения....180

4.6.2. Бета-биномиальная модель....181

4.6.2.1. Правдоподобие Бернулли....181

4.6.2.2. Биномиальное правдоподобие....181

4.6.2.3. Априорное распределение....182

4.6.2.4. Апостериорное распределение....182

4.6.2.5. Пример....182

4.6.2.6. Апостериорная мода (оценка MAP)....183

4.6.2.7. Апостериорное среднее....184

4.6.2.8. Апостериорная дисперсия....184

4.6.2.9. Апостериорное прогнозное распределение....185

4.6.2.10. Маргинальное правдоподобие....188

4.6.2.11. Смеси сопряженных априорных распределений....188

4.6.3. Дирихле-мультиномиальная модель....190

4.6.3.1. Правдоподобие....190

4.6.3.2. Априорное распределение....190

4.6.3.3. Апостериорное распределение....192

4.6.3.4. Апостериорное прогнозное распределение....193

4.6.3.5. Маргинальное правдоподобие....193

4.6.4. Гауссова-гауссова модель....194

4.6.4.1. Одномерный случай....194

4.6.4.2. Многомерный случай....196

4.6.5. За пределами сопряженных априорных распределений....197

4.6.5.1. Неинформативные априорные распределения....198

4.6.5.2. Иерархические априорные распределения....198

4.6.5.3. Эмпирические априорные распределения....198

4.6.6. Байесовские доверительные интервалы....199

4.6.7. Байесовское машинное обучение....201

4.6.7.1. Подстановочная аппроксимация....202

4.6.7.2. Пример: скалярный вход, бинарный выход....202

4.6.7.3. Пример: бинарный вход, скалярный выход....204

4.6.7.4. Вертикальное масштабирование....206

4.6.8. Вычислительные трудности....206

4.6.8.1. Сеточная аппроксимация....207

4.6.8.2. Квадратичная аппроксимация (Лапласа)....207

4.6.8.3. Вариационная аппроксимация....208

4.6.8.4. Аппроксимация методом Монте-Карло по схеме марковских цепей....209

4.7. Частотная статистика*....209

4.7.1. Выборочное распределение....210

4.7.2. Гауссова аппроксимация выборочного распределения MLE....211

4.7.3. Бутстрэпная аппроксимация выборочного распределения любого оценивателя....212

4.7.3.1. Бутстрэп – апостериорное распределение «для бедных»....212

4.7.4. Доверительные интервалы....213

4.7.5. Предостережения: доверительные интервалы и байесовские доверительные интервалы не одно и то же....215

4.7.6. Компромисс между смещением и дисперсией....216

4.7.6.1. Смещение оценки....216

4.7.6.2. Дисперсия оценки....217

4.7.6.3. Компромисс между смещением и дисперсией....217

4.7.6.4. Пример: оценка MAP среднего гауссова распределения....218

4.7.6.5. Пример: оценка MAP для линейной регрессии....219

4.7.6.6. Применение компромисса между смещением и дисперсией для классификации....221

4.8. Упражнения....221

Глава 5. Теория принятия решений....226

5.1. Байесовская теория принятия решений....226

5.1.1. Основы....226

5.1.2. Проблемы классификации....228

5.1.2.1. Бинарная потеря....229

5.1.2.2. Классификация с учетом стоимости....229

5.1.2.3. Классификация с возможностью отклонения примера....230

5.1.3. ROC-кривые....231

5.1.3.1. Матрицы неточностей классификации....231

5.1.3.2. Обобщение ROC-кривой в виде скаляра....234

5.1.3.3. Несбалансированность классов....234

5.1.4. Кривые точность–полнота....234

5.1.4.1. Вычисление точности и полноты....235

5.1.4.2. Обобщение кривых точность–полнота в виде скаляра....235

5.1.4.3. F-мера....236

5.1.4.4. Несбалансированность классов....236

5.1.5. Задачи регрессии....237

5.1.5.1. 𝓁2-потеря....237

5.1.5.2 𝓁1-потеря....238

5.1.5.3. Функция потерь Хьюбера....238

5.1.6. Задачи вероятностного предсказания....239

5.1.6.1. Расхождение КЛ, перекрестная энтропия и логарифмическая потеря....239

5.1.6.2. Правила верной оценки....240

5.2. Байесовская проверка гипотез....241

5.2.1. Пример: проверка симметричности монеты....242

5.2.2. Байесовский выбор модели....243

5.2.2.1. Пример: полиномиальная регрессия....244

5.2.3. Бритва Оккама....245

5.2.4. Связь между перекрестной проверкой и маргинальным правдоподобием....247

5.2.5. Информационные критерии....247

5.2.5.1. Байесовский информационный критерий (BIC)....248

5.2.5.2. Информационный критерий Акаике....248

5.2.5.3. Минимальная длина описания (MDL)....249

5.3. Частотная теория принятий решений....249

5.3.1. Вычисление риска оценки....249

5.3.1.1. Пример....250

5.3.1.2. Байесовский риск....251

5.3.1.3. Максимальный риск....252

5.3.2. Состоятельные оценки....252

5.3.3. Допустимые оценки....253

5.4. Минимизация эмпирического риска....254

5.4.1. Эмпирический риск....254

5.4.1.1. Ошибка аппроксимации и ошибка оценивания....255

5.4.1.2. Регуляризированный риск....256

5.4.2. Структурный риск....256

5.4.3. Перекрестная проверка....257

5.4.4. Статистическая теория обучения*....258

5.4.4.1. Нахождение границы ошибки обобщения....258

5.4.4.2. VC-размерность....259

5.5. Частотная проверка гипотез*....259

5.5.1. Критерий отношения правдоподобия....260

5.5.1.1. Пример: сравнение гауссовых средних....260

5.5.1.2. Простые и сложные гипотезы....261

5.5.2. Проверка значимости нулевой гипотезы....261

5.5.3. p-значения....262

5.5.4. О вреде p-значений....262

5.5.5. Почему же не все исповедуют байесовский подход?....265

5.6. Упражнения....267

Глава 6. Теория информации....269

6.1. Энтропия....269

6.1.1. Энтропия дискретных случайных величин....269

6.1.2. Перекрестная энтропия....272

6.1.3. Совместная энтропия....272

6.1.4. Условная энтропия....273

6.1.5. Перплексия....274

6.1.6. Дифференциальная энтропия непрерывных случайных величин*....275

6.1.6.1. Пример: энтропия гауссова распределения....275

6.1.6.2. Связь с дисперсией....276

6.1.6.3. Дискретизация....276

6.2. Относительная энтропия (расхождение KL)*....276

6.2.1. Определение....277

6.2.2. Интерпретация....277

6.2.3. Пример: расхождение КЛ между двумя гауссовыми распределениями....277

6.2.4. Неотрицательность расхождения КЛ....278

6.2.5. Расхождение КЛ и оценка максимального правдоподобия....279

6.2.6. Прямое и обратное расхождение КЛ....280

6.3. Взаимная информация*....281

6.3.1. Определение....281

6.3.2. Интерпретация....281

6.3.3. Пример....283

6.3.4. Условная взаимная информация....283

6.3.5. Взаимная информация как «обобщенный коэффициент корреляции»....284

6.3.6. Нормированная взаимная информация....285

6.3.7. Максимальный коэффициент информации....286

6.3.8. Неравенство обработки данных....288

6.3.9. Достаточные статистики....289

6.3.10. Неравенство Фано*....289

6.4. Упражнения....290

Глава 7. Линейная алгебра....293

7.1. Введение....293

7.1.1. Обозначения....293

7.1.1.1. Векторы....293

7.1.1.2. Матрицы....294

7.1.1.3. Тензоры....295

7.1.2. Векторные пространства....296

7.1.2.1. Сложение векторов и умножение вектора на скаляр....296

7.1.2.2. Линейная независимость, линейная оболочка и базисы....297

7.1.2.3. Линейные отображения и матрицы....297

7.1.2.4. Образ и ядро матрицы....298

7.1.2.5. Линейная проекция....298

7.1.3. Нормы вектора и матрицы....299

7.1.3.1. Нормы вектора....299

7.1.3.2. Нормы матрицы....300

7.1.4. Свойства матриц....301

7.1.4.1. След квадратной матрицы....301

7.1.4.2. Определитель квадратной матрицы....301

7.1.4.3. Ранг матрицы....302

7.1.4.4. Числа обусловленности....302

7.1.5. Специальные типы матриц....304

7.1.5.1. Диагональная матрица....304

7.1.5.2. Треугольные матрицы....305

7.1.5.3. Положительно определенные матрицы....305

7.1.5.4. Ортогональные матрицы....306

7.2. Умножение матриц....307

7.2.1. Умножение векторов....308

7.2.2. Произведение матрицы на вектор....308

7.2.3. Произведение матриц....309

7.2.4. Приложение: манипулирование матрицами данных....311

7.2.4.1. Суммирование срезов матрицы....311

7.2.4.2. Масштабирование строк и столбцов матрицы....312

7.2.4.3. Матрица сумм квадратов и матрица рассеяния....312

7.2.4.4. Матрица Грама....313

7.2.4.5. Матрица расстояний....314

7.2.5. Произведения Кронекера*....314

7.2.6. Суммирование Эйнштейна*....315

7.3. Обращение матриц....316

7.3.1. Обращение квадратной матрицы....316

7.3.2. Дополнения Шура *....317

7.3.3. Лемма об обращении матрицы*....318

7.3.4. Лемма об определителе матрицы*....319

7.3.5. Приложение: вывод условных распределений для многомерного гауссова распределения....320

7.4. Спектральное разложение....321

7.4.1. Основные сведения....321

7.4.2. Диагонализация....322

7.4.3. Собственные значения и собственные векторы симметричных матриц....323

7.4.3.1. Проверка на положительную определенность....323

7.4.4. Геометрия квадратичных форм....324

7.4.5. Стандартизация и отбеливание данных....324

7.4.6. Степенной метод....325

7.4.7. Понижение порядка....327

7.4.8. Собственные векторы оптимизируют квадратичные формы....327

7.5. Сингулярное разложение (SVD)....328

7.5.1. Основные сведения....328

7.5.2. Связь между сингулярным и спектральным разложением....329

7.5.3. Псевдообратная матрица....330

7.5.4. SVD и образ и ядро матрицы*....331

7.5.5. Усеченное сингулярное разложение....332

7.6. Другие матричные разложения*....333

7.6.1. LU-разложение....333

7.6.2. QR-разложение....334

7.6.3. Разложение Холески....335

7.6.3.1. Приложение: выборка из многомерного гауссова распределения....335

7.7. Решение систем линейных уравнений*....336

7.7.1. Решение квадратных систем....337

7.7.2. Решение недоопределенных систем (оценка по наименьшей норме)....337

7.7.3. Решение переопределенных систем (оценка по методу наименьших квадратов)....339

7.8. Матричное исчисление....340

7.8.1. Производные....340

7.8.2. Градиенты....341

7.8.3. Производная по направлению....341

7.8.4. Полная производная*....342

7.8.5. Якобиан....342

7.8.5.1. Умножение якобиана на вектор....343

7.8.5.2. Якобиан композиции....343

7.8.6. Гессиан....343

7.8.7. Градиенты часто встречающихся функций....344

7.8.7.1. Функции, отображающие скаляры в скаляры....344

7.8.7.2. Функции, отображающие векторы в скаляры....344

7.8.7.3. Функции, отображающие матрицы в скаляры....345

7.9. Упражнения....346

Глава 8. Оптимизация....347

8.1. Введение....347

8.1.1. Локальная и глобальная оптимизация....347

8.1.1.1. Условия оптимальности для локальных и глобальных оптимумов....348

8.1.2. Условная и безусловная оптимизация....349

8.1.3. Выпуклая и невыпуклая оптимизация....350

8.1.3.1. Выпуклые множества....350

8.1.3.2. Выпуклые функции....351

8.1.3.3. Характеристика выпуклых функций....352

8.1.3.4. Сильно выпуклые функции....353

8.1.4. Гладкая и негладкая оптимизация....354

8.1.4.1. Субградиенты....355

8.2. Методы первого порядка....356

8.2.1. Направление спуска....357

8.2.2. Размер шага (скорость обучения)....357

8.2.2.1. Постоянный размер шага....357

8.2.2.2. Линейный поиск....359

8.2.3. Скорость сходимости....360

8.2.4. Метод имульса....361

8.2.4.1. Импульс....361

8.2.4.2. Момент Нестерова....362

8.3. Методы второго порядка....363

8.3.1. Метод Ньютона....363

8.3.2. BFGS и другие квазиньютоновские методы....365

8.3.3. Методы на основе доверительных областей....366

8.4. Стохастический градиентный спуск....367

8.4.1. Приложение к задачам с конечной суммой....368

8.4.2. Пример: СГС для обучения модели линейной регрессии....369

8.4.3. Выбор размера шага (скорости обучения)....370

8.4.4. Итеративное усреднение....372

8.4.5. Уменьшение дисперсии*....373

8.4.5.1. SVRG....373

8.4.5.2. SAGA....374

8.4.5.3. Применение в глубоком обучении....374

8.4.6. Предобусловленный СГС....375

8.4.6.1. AdaGrad....375

8.4.6.2. RMSProp и AdaDelta....376

8.4.6.3. Adam....377

8.4.6.4. Проблемы, связанные с адаптивной скоростью обучения....377

8.4.6.5. Недиагональные матрицы предобусловливания....378

8.5. Условная оптимизация....378

8.5.1. Множители Лагранжа....379

8.5.1.1. Пример: двумерная квадратичная целевая функция с одним линейным ограничением в виде равенства....380

8.5.2. Условия Каруша–Куна–Таккера....381

8.5.3. Линейное программирование....382

8.5.3.1. Симплекс-метод....383

8.5.3.2. Приложения....383

8.5.4. Квадратичное программирование....383

8.5.4.1. Пример: квадратичная целевая функция в двумерном случае с линейными ограничениями в виде равенств....384

8.5.4.2. Приложения....385

8.5.5. Смешанно-целочисленное программирование*....385

8.6. Проксимальный градиентный метод*....385

8.6.1. Спроецированный градиентный спуск....386

8.6.2. Проксимальный оператор для регуляризатора по норме 𝓁1....388

8.6.3. Применение проксимального оператора в случае квантования....389

8.6.4. Инкрементные (онлайновые) проксимальные методы....390

8.7. Граничная оптимизация*....390

8.7.1. Общий алгоритм....390

8.7.2. EM-алгоритм....392

8.7.2.1. Нижняя граница....393

8.7.2.2. E-шаг....393

8.7.2.3. M-шаг....394

8.7.3. Пример: EM-алгоритм для смеси гауссовых распределений....395

8.7.3.1. E-шаг....395

8.7.3.2. M-шаг....395

8.7.3.3. Пример....396

8.7.3.4. Оценка MAP....396

8.7.3.5. Невыпуклость NLL....399

8.8. Оптимизация черного ящика и оптимизация без использования производных....400

8.9. Упражнения....400

Часть II. Линейные модели....401

Глава 9. Линейный дискриминантный анализ....402

9.1. Введение....402

9.2. Гауссов дискриминантный анализ....402

9.2.1. Квадратичные решающие границы....403

9.2.2. Линейные решающие границы....404

9.2.3. Связь между ЛДА и логистической регрессией....404

9.2.4. Обучение модели....406

9.2.4.1. Связанные ковариационные матрицы....407

9.2.4.2. Диагональные ковариационные матрицы....407

9.2.4.3. Оценка MAP....407

9.2.5. Классификатор по ближайшему центроиду....408

9.2.6. Линейный дискриминантный анализ Фишера*....408

9.2.6.1. Нахождение оптимального одномерного направления....410

9.2.6.2. Обобщение на большую размерность и несколько классов....412

9.3. Наивные байесовские классификаторы....413

9.3.1. Примеры моделей....414

9.3.2. Обучение модели....414

9.3.3. Байесовская интерпретация наивной байесовской модели....416

9.3.4. Связь между наивной байесовской моделью и логистической регрессией....417

9.4. Порождающие и дискриминантные классификаторы....418

9.4.1. Преимущества дискриминантных классификаторов....418

9.4.2. Преимущества порождающих классификаторов....419

9.4.3. Обработка отсутствующих признаков....420

9.5. Упражнения....420

Глава 10. Логистическая регрессия....421

10.1. Введение....421

10.2. Бинарная логистическая регрессия....421

10.2.1. Линейные классификаторы....422

10.2.2. Нелинейные классификаторы....423

10.2.3. Оценка максимального правдоподобия....424

10.2.3.1. Целевая функция....424

10.2.3.2. Оптимизация целевой функции....425

10.2.3.3. Вывод градиента....426

10.2.3.4. Вывод гессиана....427

10.2.4. Стохастический градиентный спуск....428

10.2.5. Алгоритм перцептрона....428

10.2.6. Метод наименьших квадратов с итеративным пересчетом весов....429

10.2.7. Оценка MAP....431

10.2.8. Стандартизация....432

10.3. Мультиномиальная логистическая регрессия....433

10.3.1. Линейные и нелинейные классификаторы....434

10.3.2. Оценка максимального правдоподобия....434

10.3.2.1. Целевая функция....435

10.3.2.2. Оптимизация целевой функции....435

10.3.2.3. Вывод градиента....435

10.3.2.4. Вывод гессиана....436

10.3.3. Градиентная оптимизация....437

10.3.4. Граничная оптимизация....437

10.3.5. Оценка MAP....439

10.3.6. Классификаторы максимальной энтропии....440

10.3.7. Иерархическая классификация....441

10.3.8. Работа с большим числом классов....441

10.3.8.1. Иерархическая softmax-модель....442

10.3.8.2. Несбалансированность классов и длинный хвост....442

10.4. Робастная логистическая регрессия*....444

10.4.1. Смесовая модель правдоподобия....444

10.4.2. Дважды смягченная потеря....445

10.5. Байесовская логистическая регрессия*....448

10.5.1. Аппроксимация Лапласа....448

10.5.2. Аппроксимация апостериорного прогнозного распределения....450

10.5.2.1. Аппроксимация Монте-Карло....452

10.5.2.2. Пробит-аппроксимация....452

10.6. Упражнения....453

Глава 11. Линейная регрессия....456

11.1. Введение....456

11.2. Линейная регрессия по методу наименьших квадратов....456

11.2.1. Терминология....456

11.2.2. Оценивание по методу наименьших квадратов....458

11.2.2.1. Обыкновенный метод наименьших квадратов....458

11.2.2.2. Геометрическая интерпретация метода наименьших квадратов....459

11.2.2.3. Алгоритмические проблемы....461

11.2.2.4. Метод взвешенных наименьших квадратов....462

11.2.3. Другие подходы к вычислению MLE....462

11.2.3.1. Нахождение смещения и углового коэффициента по отдельности....462

11.2.3.2. Простая линейная регрессия (одномерные входные данные)....463

11.2.3.3. Частная регрессия....463

11.2.3.4. Рекурсивное вычисление MLE....463

11.2.3.5. Вывод MLE с порождающей точки зрения....465

11.2.3.6. Вывод MLE для σ2....466

11.2.4. Измерение степени согласия оценки....466

11.2.4.1. Графики невязок....466

11.2.4.2. Точность предсказания и R2....467

11.3. Гребневая регрессия....468

11.3.1. Вычисление оценки MAP....468

11.3.1.1. Решение с использованием QR-разложения....469

11.3.1.2. Решение с использованием сингулярного разложения....470

11.3.2. Связь между гребневой регрессией и PCA....470

11.3.3. Выбор силы регуляризатора....472

11.4. Регрессия lasso....472

11.4.1. Оценка MAP с априорным распределением Лапласа (𝓁1-регуляризация)....473

11.4.2. Почему 𝓁1-регуляризация дает разреженные решения?....474

11.4.3. Жесткие и мягкие пороги....475

11.4.4. Путь регуляризации....477

11.4.5. Сравнение методов наименьших квадратов, lasso, гребневой регрессии и выбора подмножеств....479

11.4.6. Согласованность выбора переменных....480

11.4.7. Групповое lasso....482

11.4.7.1. Приложения....482

11.4.7.2. Штрафование по норме 𝓁2....483

11.4.7.3. Штрафование по норме 𝓁¥....483

11.4.7.4. Пример....484

11.4.8. Эластичная сеть (комбинация гребневой регрессии и lasso)....485

11.4.9. Алгоритмы оптимизации....486

11.4.9.1. Покоординатный спуск....486

11.4.9.2. Спроецированный градиентный спуск....487

11.4.9.3. Проксимальный градиентный спуск....487

11.4.9.4. LARS....487

11.5. Регрессионные сплайны*....488

11.5.1. B-сплайны в качестве базисных функций....489

11.5.2. Обучение линейно модели с помощью сплайнового базиса....490

11.5.3. Сглаживающие сплайны....491

11.5.4. Обобщенные аддитивные модели....491

11.6. Робастная линейная регрессия*....492

11.6.1. Правдоподобие Лапласа....492

11.6.1.1. Вычисление MLE методами линейного программирования....493

11.6.2. t-правдоподобие Стьюдента....494

11.6.3. Функция потерь Хьюбера....494

11.6.4. RANSAC....495

11.7. Байесовская линейная регрессия*....495

11.7.1. Априорные распределения....495

11.7.2. Апостериорные распределения....496

11.7.3. Пример....496

11.7.4. Вычисление апостериорного прогнозного распределения....498

11.7.5. Преимущество центрирования....499

11.7.6. Мультиколлинеарность....500

11.7.7. Автоматическое определение релевантности (ARD)*....502

11.8. Упражнения....503

Глава 12. Обобщенные линейные модели*....506

12.1. Введение....506

12.2. Примеры....507

12.2.1. Линейная регрессия....507

12.2.2. Биномиальная регрессия....507

12.2.3. Регрессия Пуассона....508

12.3. GLM с неканоническими функциями связи....509

12.4. Оценка максимального правдоподобия....510

12.5. Рабочий пример: предсказание обращений за страховыми выплатами....511

Часть III. Глубокие нейронные сети....514

Глава 13. Нейронные сети для структурированных данных....515

13.1. Введение....515

13.2. Многослойные перцептроны (МСП)....517

13.2.1. Задача XOR....517

13.2.2. Дифференцируемые МСП....518

13.2.3. Функции активации....519

13.2.4. Примеры моделей....520

13.2.4.1. МСП для классификации двумерных данных по двум категориям....520

13.2.4.2. МСП для классификации изображений....521

13.2.4.3. МСП для классификации текстов....523

13.2.4.4. МСП для гетероскедастической регрессии....524

13.2.5. Важность глубины....525

13.2.6. Революция глубокого обучения....526

13.2.7. Связи с биологией....527

13.3. Обратное распространение....530

13.3.1. Прямой и обратный режим дифференцирования....531

13.3.2. Дифференцирование в обратном режиме для многослойных перцептронов....532

13.3.3. Произведение вектора на якобиан для типичных слоев....534

13.3.3.1. Слой перекрестной энтропии....534

13.3.3.2. Поэлементная нелинейность....535

13.3.3.3. Линейный слой....536

13.3.3.4. Соберем все вместе....537

13.3.4. Графы вычислений....537

13.4. Обучение нейронных сетей....539

13.4.1. Настройка скорости обучения....540

13.4.2. Исчезающие и взрывные градиенты....540

13.4.3. Функции активации без насыщения....541

13.4.3.1. ReLU....543

13.4.3.2. ReLU без насыщения....543

13.4.3.3. Другие варианты....544

13.4.4. Остаточные связи....545

13.4.5. Инициализация параметров....546

13.4.5.1. Эвристические схемы инициализации....546

13.4.5.2. Инициализации, управляемые данными....547

13.4.6. Параллельное обучение....547

13.5. Регуляризация....549

13.5.1. Ранняя остановка....549

13.5.2. Уменьшение весов....549

13.5.3. Разреженные ГНС....549

13.5.4. Прореживание....550

13.5.5. Байесовские нейронные сети....552

13.5.6. Эффекты регуляризации, порождаемые стохастическим градиентным спуском*....552

13.6. Другие виды сетей прямого распространения*....554

13.6.1. Сети радиально-базисных функций....554

13.6.1.1. RBF-сеть для регрессии....555

13.6.1.2. RBF-сеть для классификации....555

13.6.2. Смесь экспертов....556

13.6.2.1. Смесь линейных экспертов....559

13.6.2.2. Глубокие сети экспертов....559

13.6.2.3. Иерархические смеси экспертов....560

13.7. Упражнения....560

Глава 14. Нейронные сети для изображений....562

14.1. Введение....562

14.2. Наиболее употребительные слои....564

14.2.1. Сверточные слои....564

14.2.1.1. Свертка в одномерном случае....564

14.2.1.2. Свертка в двумерном случае....565

14.2.1.3. Свертка как умножение матрицы на вектор....566

14.2.1.4. Граничные условия и дополнение....567

14.2.1.5. Свертка с шагом....569

14.2.1.6. Несколько входных и выходных каналов....569

14.2.1.7. Свертка 1´1 (поточечная)....570

14.2.2. Пулинговые слои....570

14.2.3. Соберем все вместе....572

14.2.4. Слои нормировки....572

14.2.4.1. Пакетная нормировка....573

14.2.4.2. Другие виды слоя нормировки....574

14.2.4.3. Сети без нормировки....576

14.3. Распространенные архитектуры классификации изображений....576

14.3.1. LeNet....576

14.3.2. AlexNet....578

14.3.3. GoogLeNet....579

14.3.4. ResNet....580

14.3.5. DenseNet....582

14.3.6. Поиск архитектуры нейронной сети....582

14.4. Другие формы свертки*....583

14.4.1. Дырявая свертка....583

14.4.2. Транспонированная свертка....584

14.4.3. Пространственная раздельная свертка....585

14.5. Решение других дискриминантных задач компьютерного зрения с помощью СНС*....586

14.5.1. Аннотирование изображений....587

14.5.2. Определение объектов....587

14.5.3. Сегментация экземпляров....589

14.5.4. Семантическая сегментация....590

14.5.5. Оценивание позы человека....591

14.6. Генерирование изображений посредством инвертирования СНС*....592

14.6.1. Преобразование обученного классификатора в порождающую модель....593

14.6.2. Априорные распределения изображений....593

14.6.2.1. Гауссово априорное распределения....594

14.6.2.2. Априорное распределение на основе полной вариации....595

14.6.3. Визуализация признаков, обученных с помощью СНС....596

14.6.4. Deep Dream....596

14.6.5. Нейронный перенос стиля....598

14.6.5.1. Как это работает....599

14.6.5.2. Ускорение метода....601

Глава 15. Нейронные сети для последовательностей....603

15.1. Введение....603

15.2. Рекуррентные нейронные сети (РНС)....603

15.2.1. Vec2Seq (генерирование последовательностей)....603

15.2.1.1. Модели....604

15.2.1.2. Приложения....605

15.2.2. Seq2Vec (классификация последовательностей)....607

15.2.3. Seq2Seq (трансляция последовательностей)....608

15.2.3.1. Выровненный случай....608

15.2.3.2. Невыровненный случай....609

15.2.4. Принуждение со стороны учителя....610

15.2.5. Обратное распространение во времени....611

15.2.6. Исчезающие и взрывные градиенты....613

15.2.7. Вентильная и долгосрочная память....613

15.2.7.1. Управляемые рекуррентные блоки (GRU)....613

15.2.7.2. Долгая краткосрочная память (LSTM)....614

15.2.8. Лучевой поиск....616

15.3. Одномерные СНС....618

15.3.1. Применение одномерных СНС для классификации последовательностей....619

15.3.2. Применение каузальных одномерных СНС для генерирования последовательностей....619

15.4. Модель внимания....621

15.4.1. Механизм внимания как мягкий поиск в словаре....621

15.4.2. Ядерная регрессия как непараметрическое внимание....623

15.4.3. Параметрическое внимание....624

15.4.4. Модель Seq2Seq с вниманием....625

15.4.5. Модель Seq2vec с вниманием (классификация текста)....627

15.4.6. Модель Seq+Seq2Vec с вниманием (классификация пар предложений)....628

15.4.7. Мягкое и жесткое внимание....630

15.5. Трансформеры....630

15.5.1. Самовнимание....631

15.5.2. Многопутевое внимание....633

15.5.3. Позиционное кодирование....633

15.5.4. Соберем все вместе....635

15.5.5. Сравнение трансформеров, СНС и HYC....637

15.5.6. Применение трансформеров для изображений*....637

15.5.7. Другие варианты трансформеров*....639

15.6. Эффективные трансформеры*....640

15.6.1. Фиксированные необучаемые локализованные паттерны внимания....640

15.6.2. Обучаемые паттерны разреженного внимания....641

15.6.3. Методы с добавлением памяти и рекуррентные методы....641

15.6.4. Низкоранговые и ядерные методы....641

15.7. Языковые модели и обучение представлений без учителя....644

15.7.1. ELMo....644

15.7.2. BERT....645

15.7.2.1. Замаскированная языковая модель....646

15.7.2.2. Задача предсказания следующего предложения....646

15.7.2.3. Дообучение BERT для приложений NLP....648

15.7.3. GPT....650

15.7.3.1. Приложения GPT....650

15.7.4. T5....650

15.7.5. Обсуждение....651

Часть IV. Непараметрические модели....653

Глава 16. Методы на основе эталонов....654

16.1. Классификация методом K ближайших соседей (KNN)....654

16.1.1. Пример....655

16.1.2. Проклятие размерности....656

16.1.3. Снижение требований к скорости и памяти....657

16.1.4. Распознавание открытого множества....658

16.1.4.1. Онлайновое обучение, обнаружение посторонних и распознавание открытого множества....658

16.1.4.2. Другие задачи открытого мира....659

16.2. Обучение метрик....659

16.2.1. Линейные и выпуклые методы....660

16.2.1.1. Метод ближайших соседей с большим зазором....660

16.2.1.2. Анализ компонентов соседства....661

16.2.1.3. Анализ латентных совпадений....661

16.2.2. Глубокое обучение метрики....662

16.2.3. Потери классификации....663

16.2.4. Потери ранжирования....663

16.2.4.1. Попарная (сопоставительная) потеря и сиамские сети....664

16.2.4.2. Триплетная потеря....664

16.2.4.3. N-парная потеря....665

16.2.5. Ускорение оптимизации потери ранжирования....666

16.2.5.1. Добычные методы....666

16.2.5.2. Методы на основе представителей....666

16.2.5.3. Оптимизация верхней границы....667

16.2.6. Другие приемы глубокого обучения метрики....669

16.3. Ядерные оценки плотности....670

16.3.1. Ядра плотности....670

16.3.2. Оконная оценка плотности Парцена....671

16.3.3. Как выбирать полосу пропускания....673

16.3.4. От KDE к KNN-классификации....673

16.3.5. Ядерная регрессия....674

16.3.5.1. Оценка среднего Надарая–Ватсона....674

16.3.5.2. Оценка дисперсии....676

16.3.5.3. Локально взвешенная регрессия....676

Глава 17. Ядерные методы*....677

17.1. Ядра Мерсера....677

17.1.1. Теорема Мерсера....679

17.1.2. Некоторые популярные ядра Мерсера....679

17.1.2.1. Стационарные ядра для вещественных векторов....679

17.1.2.2. Создание новых ядер из существующих....682

17.1.2.3. Комбинирование ядер с помощью сложения и умножения....683

17.1.2.4. Ядра для структурированных входов....684

17.2. Гауссовы процессы....684

17.2.1. Незашумленные наблюдения....685

17.2.2. Зашумленные наблюдения....686

17.2.3. Сравнение с ядерной регрессией....687

17.2.4. Пространство весов и пространство функций....688

17.2.5. Численные проблемы....689

17.2.6. Оценивание параметров ядра....689

17.2.6.1. Эмпирическая байесовская оценка....690

17.2.6.2. Байесовский вывод....692

17.2.7. Применение гауссовых процессов для классификации....693

17.2.8. Связи с глубоким обучением....695

17.2.9. Масштабирование ГП на большие наборы данных....695

17.2.9.1. Разреженные аппроксимации....695

17.2.9.2. Распараллеливание с использованием структуры ядерной матрицы....695

17.2.9.3. Аппроксимация случайными признаками....696

17.3. Метод опорных векторов....697

17.3.1. Классификаторы с широким зазором....698

17.3.2. Двойственная задача....700

17.3.3. Классификаторы с мягким зазором....702

17.3.4. Ядерный трюк....703

17.3.5. Преобразование выходов SVM в вероятности....704

17.3.6. Связь с логистической регрессией....705

17.3.7. Многоклассовая классификация с применением SVM....706

17.3.8. Как выбирать регуляризатор C....707

17.3.9. Ядерная гребневая регрессия....708

17.3.10. Применение SVM для регрессии....709

17.4. Метод разреженных векторов....712

17.4.1. Метод релевантных векторов....712

17.4.2. Сравнение разреженных и плотных ядерных методов....712

17.5. Упражнения....716

Глава 18. Деревья, леса, бэггинг и бустинг....717

18.1. Деревья классификации и регрессии....717

18.1.1. Определение модели....717

18.1.2. Обучение модели....718

18.1.3. Регуляризация....720

18.1.4. Обработка отсутствующих входных признаков....721

18.1.5. Плюсы и минусы....721

18.2. Ансамблевое обучение....722

18.2.1. Стековое обобщение....723

18.2.2. Ансамблевое обучение не то же, что байесовское усреднение моделей....723

18.3. Бэггинг....724

18.4. Случайные леса....725

18.5. Бустинг....726

18.5.1. Прямое поэтапное аддитивное моделирование....727

18.5.2. Квадратичная потеря и бустинг наименьших квадратов....728

18.5.3. Экспоненциальная потеря и AdaBoost....728

18.5.4. LogitBoost....732

18.5.5. Градиентный бустинг....733

18.5.5.1. Градиентный бустинг деревьев....735

18.5.5.2. XGBoost....735

18.6. Интерпретация ансамблей деревьев....737

18.6.1. Важность признаков....737

18.6.2. Графики частичной зависимости....739

Часть V. За пределами обучения с учителем....740

Глава 19. Обучение при меньшем числе помеченных примеров....741

19.1. Приращение данных....741

19.1.1. Примеры....741

19.1.2. Теоретическое обоснование....742

19.2. Перенос обучения....743

19.2.1. Дообучение....743

19.2.2. Адаптеры....745

19.2.3. Предобучение с учителем....746

19.2.4. Предобучение без учителя (самостоятельное обучение)....747

19.2.4.1. Задачи подстановки....748

19.2.4.2. Замещающие задачи....749

19.2.4.3. Сопоставительные задачи....749

19.2.4.4. SimCLR....749

19.2.4.5. CLIP....752

19.2.5. Адаптация домена....753

19.3. Обучение с частичным привлечением учителя....754

19.3.1. Самообучение и псевдопометка....755

19.3.2. Минимизация энтропии....756

19.3.2.1. Кластерное допущение....757

19.3.2.2. Взаимная информация между входом и выходом....758

19.3.3. Совместное обучение....759

19.3.4. Распространение меток на графах....760

19.3.5. Регуляризация по согласованности....761

19.3.6. Глубокие порождающие модели*....763

19.3.6.1. Вариационные автокодировщики....764

19.3.6.2. Порождающие состязательные сети....766

19.3.6.3. Нормализующие потоки....767

19.3.7. Сочетание самостоятельного обучения и обучения с частичным привлечением учителя....768

19.4. Активное обучение....769

19.4.1. Подход на основе теории принятия решений....770

19.4.2. Теоретико-информационный подход....770

19.4.3. Пакетное активное обучение....771

19.5. Метаобучение....771

19.5.1. Метаобучение, не зависящее от модели (MAML)....772

19.6. Обучение на малом числе примеров....773

19.6.1. Сопоставляющие сети....774

19.7. Обучение со слабым учителем....775

19.8. Упражнения....776

Глава 20. Понижение размерности....777

20.1. Метод главных компонент....777

20.1.1. Примеры....778

20.1.2. Вывод алгоритма....780

20.1.2.1. Базовый случай....780

20.1.2.2. Оптимальный вектор весов максимизирует дисперсию спроецированных данных....781

20.1.2.3. Шаг индукции....782

20.1.3. Вычислительные трудности....783

20.1.3.1. Ковариационная матрица и корреляционная матрица....783

20.1.3.2. Работа с данными высокой размерности....784

20.1.3.3. Вычисление PCA с использованием SVD....784

20.1.4. Выбор числа латентных измерений....785

20.1.4.1. Ошибка реконструкции....785

20.1.4.2. Графики каменистой осыпи....786

20.1.4.3. Правдоподобие профиля....786

20.2. Факторный анализ*....788

20.2.1. Порождающая модель....788

20.2.2. Вероятностный PCA....790

20.2.3. EM-алгоритм для ФА/PPCA....791

20.2.3.1. EM-алгоритм для ФА....792

20.2.3.2. EM-алгоритм для (P)PCA....792

20.2.3.3. Преимущества....793

20.2.4. Неидентифицируемость параметров....795

20.2.5. Нелинейный факторный анализ....796

20.2.6. Смеси факторных анализаторов....796

20.2.7. Факторный анализ экспоненциального семейства....798

20.2.7.1. Пример: бинарный PCA....799

20.2.7.2. Пример: категориальный PCA....799

20.2.8. Модели факторного анализа для парных данных....800

20.2.8.1. PCA с учителем....800

20.2.8.2. Метод частичных наименьших квадратов....801

20.2.8.3. Канонический корреляционный анализ....802

20.3. Автокодировщики....803

20.3.1. Автокодировщики с сужением....803

20.3.2. Шумоподавляющие автокодировщики....805

20.3.3. Сжимающие автокодировщики....807

20.3.4. Разреженные автокодировщики....807

20.3.5. Вариационные автокодировщики....809

20.3.5.1. Обучение VAE....810

20.3.5.2. Перепараметризация....810

20.3.5.3. Сравнение VAE с автокодировщиками....812

20.4. Обучение многообразий*....814

20.4.1. Что такое многообразие?....814

20.4.2. Гипотеза многообразия....815

20.4.3. Подходы к обучению многообразий....816

20.4.4. Многомерное шкалирование....817

20.4.4.1. Классическое ММШ....817

20.4.4.2. Метрическое ММШ....818

20.4.4.3. Неметрическое ММШ....819

20.4.4.4. Отображение Саммона....819

20.4.5. Isomap....820

20.4.6. Ядерный PCA....821

20.4.7. Максимальное раскрытие дисперсии....823

20.4.8. Локально линейное погружение....824

20.4.9. Лапласовы собственные отображения....825

20.4.9.1. Использование собственных векторов лапласиана графа для вычисления погружений....825

20.4.9.2. Что такое лапласиан графа?....826

20.4.10. t-SNE....828

20.4.10.1. Стохастическое погружение соседей....828

20.4.10.2. Симметричное SNE....830

20.4.10.3. SNE с t-распределением....830

20.4.10.4. Выбор линейного масштаба....831

20.4.10.5. Вычислительные проблемы....832

20.4.10.6. UMAP....832

20.5. Погружения слов....833

20.5.1. Латентно-семантический анализ и индексирование....833

20.5.1.1. Латентно-семантическое индексирование....833

20.5.1.2. Латентно-семантический анализ....834

20.5.1.3. Поточечная взаимная информация....835

20.5.2. Word2vec....836

20.5.2.1. Модель Word2vec CBOW....836

20.5.2.2. Скипграммная модель Word2vec....836

20.5.2.3. Отрицательная выборка....837

20.5.3. GloVE....838

20.5.4. Аналогичные слова....839

20.5.5. Модель погружений слов RAND-WALK....840

20.5.6. Контекстуальные погружения слов....841

20.6. Упражнения....841

Глава 21. Кластеризация....844

21.1. Введение....844

21.1.1. Оценивание выхода методов кластеризации....844

21.1.1.1. Чистота....845

21.1.1.2. Индекс Рэнда....845

21.1.1.3. Взаимная информация....846

21.2. Иерархическая агломеративная кластеризация....847

21.2.1. Алгоритм....848

21.2.1.1. Одиночная связь....849

21.2.1.2. Полная связь....849

21.2.1.3. Средняя связь....850

21.2.2. Пример....850

21.2.3. Расширения....851

21.3. Кластеризация методом K средних....852

21.3.1. Алгоритм....852

21.3.2. Примеры....853

21.3.2.1. Кластеризация точек на плоскости....853

21.3.2.2. Кластеризация временных рядов экспрессии генов дрожжей....853

21.3.3. Векторное квантование....854

21.3.4. Алгоритм K-means++....855

21.3.5. Алгоритм K медоидов....856

21.3.6. Способы ускорения....857

21.3.7. Выбор числа кластеров K....858

21.3.7.1. Минимизация искажения....858

21.3.7.2. Максимизация маргинального правдоподобия....858

21.3.7.3. Силуэтный коэффициент....859

21.3.7.4. Инкрементное увеличение количества компонент смеси....861

21.3.7.5. Методы разреженного оценивания....861

21.4. Кластеризация с помощью смесовых моделей....861

21.4.1. Смеси гауссовых распределений....861

21.4.1.1. Метод K средних – частный случай EM-алгоритма....862

21.4.1.2. Неидентифицируемость и переключение метки....862

21.4.1.3. Байесовский выбор модели....865

21.4.2. Смеси распределений Бернулли....866

21.5. Спектральная кластеризация*....866

21.5.1. Нормализованные разрезы....867

21.5.2. Собственные векторы лапласиана графа кодируют кластеризацию....867

21.5.3. Пример....868

21.5.4. Связь с другими методами....869

21.5.4.1. Связь с kPCA....869

21.5.4.2. Связь с анализом случайного блуждания....869

21.6. Бикластеризация*....870

21.6.1. Базовая бикластеризация....870

21.6.2. Модели вложенного разбиения (Crosscat)....871

Глава 22. Рекомендательные системы....874

22.1. Явная обратная связь....874

22.1.1. Наборы данных....875

22.1.2. Коллаборативная фильтрация....875

22.1.3. Матричная факторизация....876

22.1.3.1. Вероятностная матричная факторизация....877

22.1.3.2. Пример: Netflix....877

22.1.3.3. Пример: MovieLens....878

22.1.4. Автокодировщики....879

22.2. Неявная обратная связь....880

22.2.1. Байесовское персонализированное ранжирование....881

22.2.2. Машины факторизации....882

22.2.3. Нейронная матричная факторизация....883

22.3. Использование побочной информации....883

22.4. Компромисс между исследованием и использованием....885

Глава 23. Погружения графов*....886

23.1. Введение....886

23.2. Погружение графа как задача о кодировщике и декодере....888

23.3. Поверхностные погружения графов....890

23.3.1. Обучение погружений без учителя....890

23.3.2. На основе расстояния: евклидовы методы....891

23.3.3. На основе расстояния: неевклидовы методы....891

23.3.4. На основе внешнего произведения: методы матричной факторизации....892

23.3.5. На основе внешнего произведения: скипграммные методы....893

23.3.6. Обучение погружений с учителем....895

23.3.6.1. Распространение меток....895

23.4. Графовые нейронные сети....896

23.4.1. Графовые нейронные сети передачи сообщений....896

23.4.2. Спектральные свертки графов....898

23.4.3. Пространственные свертки графов....898

23.4.3.1. Выборочные пространственные методы....899

23.4.3.2. Пространственные методы на основе механизма внимания....899

23.4.3.3. Геометрические пространственные методы....900

23.4.4. Неевклидовы графовые свертки....900

23.5. Глубокие погружения графов....901

23.5.1. Обучение погружений без учителя.....901

23.5.1.1. Структурное погружение с помощью глубокой сети....901

23.5.1.2. Вариационные графовые автокодировщики....902

23.5.1.3. Итеративное порождающее моделирование графов (Graphite)....903

23.5.1.4. Методы на основе сопоставительных потерь....903

23.5.2. Обучение погружений с частичным привлечением учителя....904

23.5.2.1. SemiEmb....904

23.5.2.2. Planetoid....904

23.6. Приложения....905

23.6.1. Приложения без учителя....905

23.6.1.1. Реконструкция графа....905

23.6.1.2. Предсказание связей....906

23.6.1.3. Кластеризация....907

23.6.1.4. Визуализация....907

23.6.2. Приложения с учителем....908

23.6.2.1. Классификация вершин....908

23.6.2.2. Классификация графов....908

Приложение А. Обозначения....910

A.1. Введение....910

A.2. Общепринятые математические символы....910

A.3. Функции....911

A.3.1. Функции с одним аргументом....911

A.3.2. Функции двух аргументов....911

A.3.3. Функции более двух аргументов....912

A.4. Линейная алгебра....912

A.4.1. Общие обозначения....912

A.4.2. Векторы....912

A.4.3. Матрицы....913

A.4.4. Матричное исчисление....913

A.5. Оптимизация....914

A.6. Вероятность....914

A.7. Теория информации....915

A.8. Статистика и машинное обучение....916

A.8.1. Обучение с учителем....916

A.8.2. Обучение без учителя и порождающие модели....916

A.8.3. Байесовский вывод....917

A.9. Аббревиатуры....917

Предметный указатель....919

Данный классический труд содержит обстоятельное современное введение в машинное обучение (включая глубокое обучение), рассматриваемое сквозь объединяющую призму вероятностного моделирования и байесовской теории принятия решений. Включен базовый математический аппарат (в т. ч. элементы линейной алгебры и теории оптимизации), основы обучения с учителем (включая линейную и логистическую регрессию и глубокие нейронные сети), а также более сложные темы (в т. ч. перенос обучения и обучение без учителя). Упражнения в конце глав помогут читателям применить полученные знания, а в приложении имеется сводка используемых обозначений.

В основу издания легла вышедшая в 2012 году книга Кэвина Мэрфи «Machine Learning: A Probabilistic Perspective». Однако это совершенно новая работа, отражающая многие достижения, случившиеся в этой области за последние 10 лет.

Если вам понравилась эта страница - поделитесь ею с друзьями, тем самым вы помогаете нам развиваться и добавлять всё больше интересных и нужным вам книг