Практическая статистика для специалистов Data Science: 50+ важнейших понятий с использованием R и Python. 2 изд

Практическая статистика для специалистов Data Science: 50+ важнейших понятий с использованием R и Python. 2 изд

Практическая статистика для специалистов Data Science: 50+ важнейших понятий с использованием R и Python. 2 изд
Автор: Брюс Питер, Брюс Эндрю, Гедек Питер
Дата выхода: 2021
Издательство: БХВ-Петербург
Количество страниц: 354
Размер файла: 8.3 MB
Тип файла: PDF
Добавил: codelibs
 Проверить на вирусы

 Оглавление....6

Об авторах....14

Предисловие....16

Условные обозначения, принятые в книге....16

Использование примеров кода....17

Благодарности....17

Комментарии переводчика....18

Глава 1. Разведывательный анализ данных....20

Элементы структурированных данных....21

Дополнительные материалы для чтения....23

Прямоугольные данные....24

Кадры данных и индексы....25

Непрямоугольные структуры данных....26

Дополнительные материалы для чтения....27

Оценки центрального положения....27

Среднее....28

Медиана и робастные оценки....30

Выбросы....30

Пример: средние оценки численности населения и уровня убийств....31

Дополнительные материалы для чтения....33

Оценки вариабельности....33

Стандартное отклонение и связанные с ним оценки....34

Оценки на основе процентилей....36

Пример: оценки вариабельности населения штатов....37

Дополнительные материалы для чтения....38

Разведывание распределения данных....39

Процентили и коробчатые диаграммы....39

Частотные таблицы и гистограммы....41

Графики и оценки плотности....43

Дополнительные материалы для чтения....45

Разведывание двоичных и категориальных данных....45

Мода....47

Ожидаемое значение....48

Вероятность....48

Дополнительные материалы для чтения....49

Корреляция....49

Диаграммы рассеяния....53

Дополнительные материалы для чтения....54

Разведывание двух или более переменных....54

Сетка из шестиугольных корзин и контуры (сопоставление числовых данных с числовыми данными на графике)....55

Две категориальные переменные....58

Категориальные и числовые данные....59

Визуализация многочисленных переменных....61

Дополнительные материалы для чтения....63

Резюме....64

Глава 2. Распределение данных и распределение выборок....66

Случайный отбор и смещенная выборка....67

Смещение....69

Случайный отбор....70

Размер против качества: когда размер имеет значение?....71

Выборочное среднее против популяционного среднего....72

Дополнительные материалы для чтения....72

Систематическая ошибка отбора....73

Регрессия к среднему....74

Дополнительные материалы для чтения....76

Выборочное распределение статистической величины....76

Центральная предельная теорема....79

Стандартная ошибка....80

Дополнительные материалы для чтения....81

Бутстрап....81

Повторный отбор против бутстрапирования....85

Дополнительные материалы для чтения....85

Доверительные интервалы....85

Дополнительные материалы для чтения....88

Нормальное распределение....88

Стандартное нормальное распределение и квантиль-квантильные графики....90

Длиннохвостые распределения....92

Дополнительные материалы для чтения....94

t-Распределение Стьюдента....94

Дополнительные материалы для чтения....96

Биномиальное распределение....96

Дополнительные материалы для чтения....99

Распределение хи-квадрат....99

Дополнительные материалы для чтения....100

F-распредел ение....100

Дополнительные материалы для чтения....101

Распределение Пуассона и другие связанные с ним распределения....101

Пуассоновские распределения....102

Экспоненциальное распределение....102

Оценивание интенсивности отказов....103

Распределение Вейбулла....103

Дополнительные материалы для чтения....104

Резюме....105

Глава 3. Статистические эксперименты и проверка значимости....106

A/B-тестирование....106

Зачем нужна контрольная группа?....109

Почему только A/В? Почему не С, £>...?....110

Дополнительные материалы для чтения....111

Проверки гипотез....111

Нулевая гипотеза....113

Альтернативная гипотеза....113

Односторонняя проверка гипотезы против двухсторонней....114

Дополнительные материалы для чтения....115

Повторный отбор....115

Перестановочный тест....116

Пример: прилипчивость веб-страниц....116

Исчерпывающий и бутстраповский перестановочные тесты....120

Перестановочные тесты: сухой остаток для науки о данных....120

Дополнительные материалы для чтения....121

Статистическая значимость и р-значения....121

р-Значение....124

Альфа....125

Разногласия по поводу р-значения....125

Практическая значимость....126

Ошибки 1 -го и 2-го рода....126

Наука о данных и р-значения....127

Дополнительные материалы для чтения....127

Проверки на основе /-статистики....128

Дополнительные материалы для чтения....130

Множественное тестирование....130

Дополнительные материалы для чтения....133

Степени свободы....134

Дополнительные материалы для чтения....135

Дисперсионный анализ....135

F-статистика....139

Двухсторонний дисперсионный анализ....140

Дополнительные материалы для чтения....141

Проверка на основе статистики хи-квадрат....141

Проверка хи-квадрат: подход на основе повторного отбора....142

Проверка хи-квадрат: статистическая теория....144

Точный тест Фишера....145

Релевантность для науки о данных....147

Дополнительные материалы для чтения....148

Алгоритм многорукого бандита....148

Дополнительные материалы для чтения....151

Мощность и размер выборки....152

Размер выборки....153

Дополнительные материалы для чтения....156

Резюме....156

Глава 4. Регрессия и предсказание....158

Простая линейная регрессия....158

Уравнение регрессии....159

Подогнанные значения и остатки....162

Наименьшие квадраты....163

Предсказание против объяснения (профилирование)....164

Дополнительные материалы для чтения....165

Множественная линейная регрессия....165

Пример: данные жилого фонда округа Кинг....166

Оценивание результативности модели....168

Перекрестный конроль....170

Отбор модели и пошаговая регрессия....171

Взвешенная регрессия....174

Дополнительные материалы для чтения....176

Предсказание с использованием регрессии....176

Опасности экстраполяции....176

Доверительный и предсказательный интервалы....177

Факторные переменные в регрессии....179

Представление фиктивных переменных....179

Факторные переменные с многочисленными уровнями....182

Упорядоченные факторные переменные....184

Интерпретирование уравнения регрессии....185

Коррелированные предсказатели....186

Мультиколлинеарность....187

Искажающие переменные....188

Взаимодействия и главные эффекты....189

Диагностика регрессии....191

Выбросы....192

Влиятельные значения....194

Гетероскедастичность, ненормальность и коррелированные ошибки....197

Графики частных остатков и нелинейность....200

Многочленная и сплайновая регрессия....202

Многочлены....203

Сплайны....204

Обобщенные аддитивные модели....207

Дополнительные материалы для чтения....208

Резюме....209

Глава 5. Классификация....210

Наивный Байес....211

Почему точная байесова классификация непрактична?....212

Наивное решение....212

Числовые предсказательные переменные....215

Дополнительные материалы для чтения....216

Дискриминантный анализ....216

Матрица ковариаций....217

Линейный дискриминант Фишера....218

Простой пример....218

Дополнительные материалы для чтения....222

Логистическая регрессия....222

Функция логистического отклика и логит....223

Логистическая регрессия и ОЛМ....224

Обобщенные линейные модели....226

Предсказанные значения из логистической регрессии....226

Интерпретирование коэффициентов и отношений перевесов....227

Линейная и логистическая регрессия: сходства и различия....229

Подгонка модели....229

Оценивание результативности модели....230

Анализ остатков....232

Дополнительные материалы для чтения....233

Оценивание классификационных моделей....234

Матрица путаницы....235

Проблема редкого класса....237

Прецизионность, полнота и специфичность....237

ROC-кривая....239

Площадь под ROC-кривой....241

Лифт....242

Дополнительные материалы для чтения....244

Стратегии для несбалансированных данных....244

Понижающий отбор....245

Повышающий отбор и повышающая/понижающая перевесовка....246

Генерация данных....247

Стоимостная классификация....248

Разведывание предсказаний....248

Дополнительные материалы для чтения....250

Резюме....250

Глава 6. Статистическое машинное обучение....252

k ближайших соседей....253

Небольшой пример: предсказание невыплаты ссуды....254

Метрики расстояния....256

Кодировщик с одним активным состоянием....257

Стандартизация (нормализация, z-оценки)....258

Выбор числам....261

k ближайших соседей как механизм порождения признаков....262

Древесные модели....264

Простой пример....265

Алгоритм рекурсивного подразделения....268

Измерение однородности или загрязненности....269

Остановка выращивания дерева....271

Контроль за сложностью дерева в R....271

Контроль за сложностью дерева в Python....272

Предсказывание непрерывного значения....272

Каким образом используются деревья....273

Дополнительные материалы для чтения....274

Бэггинг и случайный лес....274

Бэггинг....275

Случайный лес....276

Важность переменных....280

Гиперпараметры....283

Бустинг....284

Алгоритм бустирования....286

XGBoost....287

Регуляризация: предотвращение переподгонки....289

Гиперпараметры и перекрестный контроль....293

Резюме....297

Глава 7. Неконтролируемое самообучение....298

Анализ главных компонент....299

Простой пример....300

Вычисление главных компонент....302

Интерпретирование главных компонент....303

Анализ соответствия....306

Дополнительные материалы для чтения....308

Кластеризация на основе К средних....308

Простой пример....309

Алгоритм К средних....311

Интерпретирование кластеров....312

Выбор числа кластеров....314

Иерархическая кластеризация....316

Простой пример....317

Дендограмма....318

Агломератов ный алгоритм....319

Меры несхожести....320

Модельно-ориентированная кластеризация....322

Многомерное нормальное распределение....322

Смеси нормальных распределений....323

Выбор числа кластеров....326

Дополнительные материалы для чтения....328

Шкалирование и категориальные переменные....329

Шкалирование переменных....329

Доминантные переменные....331

Категориальные данные и расстояние Говера....333

Проблемы кластеризации смешанных данных....335

Резюме....337

Библиография....338

Предметный указатель....340

Книга рассчитана на специалистов в области Data Science, обладающих некоторым опытом работы с языком программирования R и имеющих предварительное понятие о математической статистике. В ней в удобной и легкодоступной форме представлены ключевые понятия из статистики, которые относятся к науке о данных, а также объяснено, какие понятия важны и полезны с точки зрения науки о данных, какие менее важны, и почему. Подробно раскрыты темы: разведочный анализ данных, распределения данных и выборок, статистические эксперименты и проверка значимости, регрессия и предсказание, классификация, статистическое машинное обучение и обучение без учителя. Во второе издание включены примеры на языке Python, что расширяет практическое применение книги.

Прочитав эту книгу, вы узнаете:

  • Почему разведывательный анализ данных является ключевым предварительным шагом в науке о данных
  • Как случайная выборка может уменьшить смещение и привести к более высококачественному набору данных, даже в условиях больших данных
  • Как принципы планирования эксперимента помогают получить наиболее полные ответы на вопросы
  • Как использовать регрессию для оценки результатов и выявления аномалий

Вы освоите:

  • Ключевые методы классификации для предсказания, к какой категории относится запись
  • Статистические методы машинного обучения, которые “обучаются” на данных
  • Методы обучения без учителя для извлечения информации из немаркированных данных

Похожее:

Список отзывов:

Нет отзывов к книге.