Data science проблемы и решения

Data science проблемы и решения

Data science проблемы и решения

Автор: А. С. Ватьян , Н. В. Добренко , Н. Ф. Гусарова
Дата выхода: 2025
Издательство: Национальный исследовательский университет ИТМО
Количество страниц: 221
Размер файла: 9,6 МБ
Тип файла: PDF
Добавил: codelibs
 Проверить на вирусы

ВВЕДЕНИЕ ..................................................................................................... 6
1.ОБЩАЯ ХАРАКТЕРИСТИКА НАУКИ О ДАННЫХ ................................................. 7
1.1. Предмет науки о данных .......................................................................... 7
1.1.1. Определения науки о данных ................................................................ 7
1.1.2. Виды анализа данных ........................................................................... 7
1.1.3. Типы задач DS ..................................................................................... 9
1.1.4. Акторы процесса DS ............................................................................. 11
1.2. Данные и стандарты для их описания ....................................................... 13
1.2.1. Типы данных ........................................................................................ 13
1.2.2. Типы моделей данных ........................................................................... 14
1.2.3. Формат данных ..................................................................................... 15
1.2.4. Большие данные и специфика их анализа в DS ....................................... 17
1.2.5. Стандарты качества данных ................................................................... 19
1.2.6. Метрики качества данных ...................................................................... 22
1.3. Основные методологии работы с данными ................................................. 25
1.3.1. Методология KDD process ..................................................................... 25
1.3.2. Методология SEMMA ............................................................................ 27
1.3.3. Методология CRISP-DM ........................................................................ 28
1.3.4. Методология BADIR ............................................................................. 33
1.3.5. Сравнение методологий анализа данных ............................................... 34
Вопросы для самопроверки ........................................................................... 35
2. АРТЕФАКТЫ И ИНСТРУМЕНТАРИЙ НАУКИ О ДАННЫХ .................................... 37
2.1. Артефакты науки о данных ..................................................................... 37
2.1.1. Артефакты аналитики .......................................................................... 37
2.1.2. Артефакты машинного обучения, инженерии данных,
DevOps и MLOps ........................................................................................... 39
2.2. Инструментарий науки о данных ............................................................. 41
2.2.1. Инструментарий общего назначения .................................................... 41
2.2.2. Инструментарий визуализации данных низкой размерности .................. 44
2.2.3. Инструментарий визуализации данных высокой размерности ................ 46
Вопросы для самопроверки .......................................................................... 54
3. СТАТИСТИЧЕСКИЕ И ВЕРОЯТНОСТНЫЕ МЕТОДЫ В НАУКЕ О ДАННЫХ ........... 55
3.1. Статистика vs теория вероятностей в DS ................................................ 55
3.1.1. Соотношение статистики и теории вероятностей .................................. 55
3.1.2. Статистические совокупности и их репрезентативность......................... 55
3.2. Артефакты описания случайных величин в DS ....................................... 59
3.2.1. Функция распределения и плотность вероятности ................................ 59
3.2.2. Числовые характеристики случайных величин .................................... 60
3.2.3. Функционалы качества для задач DS ................................................. 68
3.3. Описание распределений в DS ............................................................. 83
3.3.1. Предварительные замечания ............................................................. 83
3.3.2. Типовые распределения в DS............................................................. 86
3.3.3. Распределения с тяжелыми хвостами в DS .......................................... 96
Вопросы для самопроверки ........................................................................ 103
4. РАЗВЕДОЧНЫЙ АНАЛИЗ В НАУКЕ О ДАННЫХ ............................................ 105
4.1. Источники данных .............................................................................. 105
4.2. Что такое разведочный анализ данных и зачем он нужен ...................... 107
4.3. Описательная статистика .................................................................... 108
4.3.1. Меры центральной тенденции .......................................................... 109
4.3.2. Квантильные оценки ....................................................................... 111
4.3.3. Меры вариации .............................................................................. 112
4.4. Выявление аномалий ......................................................................... 114
4.4.1. Виды аномалий в данных ................................................................ 114
4.4.2. Статистические и вероятностные алгоритмы выявления аномалий...... 116
4.4.3. Алгоритмы выявления аномалий на основе оценки расстояния .......... 118
4.4.4. Алгоритмы выявления аномалий на основе кластеризации ................ 120
4.4.5. Алгоритмы выявления аномалий на основе плотности ....................... 122
4.4.6. Методы выявления аномалий на основе машинного обучения ............ 123
4.4.7. Инструментарий для выявления аномалий ........................................ 126
4.5. Оценка распределений ...................................................................... 126
4.5.1. Статистические методы восстановления распределений ..................... 126
4.5.2. Оценка распределений на основе числовых характеристик ................. 129
4.5.3. Проверка нормальности распределения ............................................. 129
4.5.4. Методы нормализации распределения ............................................... 130
4.5.5. Графические методы оценки распределений, отличных
от нормального ......................................................................................... 132
4.5.6. Типовая практика работы с распределениями .................................... 135
4.6. Визуализация в разведочном анализе .................................................. 136
4.6.1. Цели и особенности визуализации данных ......................................... 136
4.6.2. Основные методы визуализации данных в разведочном анализе .......... 136
4.6.3. Выбор метода визуализации данных в разведочном анализе ................ 142
4.6.4. Визуализация неопределенности в оценке данных ............................... 146
4.6.5. Примеры визуализаций при оценке одномерного распределения ........... 149
Вопросы для самопроверки ........................................................................... 153
5. ПОДГОТОВКА ДАННЫХ .............................................................................. 154
5.1. Основные операции в подготовке данных ................................................ 154
5.2. Выборка данных .................................................................................... 154
5.2.1. Общие требования к выборке данных ................................................... 154
5.2.2. Методы отбора признаков .................................................................... 156
5.3. Очистка и генерация данных ................................................................... 162
5.3.1. Общие сведения .................................................................................. 162
5.3.2. Кодирование данных ............................................................................ 163
5.3.3. Обработка пропущенных значений ....................................................... 164
5.3.4. Стандартизация данных........................................................................ 165
5.3.5. Генерация кейсов (сэмплов) ................................................................. 168
5.3.6. Анонимизация данных .......................................................................... 170
5.4. Интеграция данных ................................................................................. 174
5.5. Конвертация и форматирование данных ................................................... 178
Вопросы для самопроверки ............................................................................ 180
6. Моделирование в Data Science .................................................................... 181
6.1. Выбор алгоритмов ................................................................................... 181
6.2. Тестирование модели .............................................................................. 184
6.2.1. Дилемма «смещение–дисперсия»........................................................... 184
6.2.2. Стратегии оценки модели ...................................................................... 185
6.2.3. Выбор метрик эффективности модели .................................................... 188
6.3. Обучение и оценка моделей ..................................................................... 192
Вопросы для самопроверки ............................................................................. 194
7. ЗАПУСК И ОКОНЧАНИЕ ПРОЕКТА DS ............................................................. 195
7.1. Содержание фаз запуска и окончания проекта DS ...................................... 195
7.2. Моделирование участия заинтересованных лиц в проекте DS ...................... 196
7.3. Артефакты фазы запуска проекта DS ......................................................... 199
7.3.1 Бизнес-кейс ............................................................................................ 199
7.3.2. Бизнес-цели ........................................................................................... 199
7.3.3. Бизнес-гипотеза ...................................................................................... 201
7.4. Фазы окончания проекта DS ....................................................................... 204
7.5. Практика работы дата-сайентиста в крупной компании ................................. 206
Вопросы для самопроверки ................................................................................ 208
Заключение ...................................................................................................... 209
Использованные источники ................................................................................ 210

 Наука о данных (Data Science, DS) на сегодняшний день формирует группу самых востребованных приложений ИТ в бизнесе.
 Пособие не только описывает методологии DS проекта, представляющие собою симбиоз предметных знаний разных областей и возможностей машинного обучения и искусственного интеллекта и поддерживающими их технологическими решениями, но и формирует базовое понимание научных основ этих решений. Большое внимание уделяется источникам ошибок при реализации этих проектов и мерам по их предупреждению. В пособии сделана попытка отразить пересечение всех этих тенденций. Насколько известно авторам, материал такого охвата предлагается русскоязычным читателям впервые.


Похожее:

Список отзывов:

Нет отзывов к книге.