Об авторе 12
О рецензентах 13
Предисловие 14
Глава 1. Приступаем к обучению с подкреплением и PyTorch 19
Глава 2. Марковские процессы принятия решений и динамическое программирование 53
Глава 3. Применение методов Монте-Карло для численного оценивания 87
Глава 4. TD-обучение и Q-обучение 119
Глава 5. Решение задачи о многоруком бандите 150
Глава 6. Масштабирование с помощью аппроксимации функций 177
Глава 7. Глубокие Q-сети в действии 200
Глава 8. Реализация методов градиента стратегии и оптимизация стратегии 232
Глава 9. Кульминационный проект – применение DQN к игре Flappy Bird 264
Предметный указатель 278
Библиотека PyTorch выходит на передовые позиции в качестве средства обучения с подкреплением (ОП) благодаря эффективности и простоте ее использования. Эта книга организована как справочник по работе с PyTorch, охватывающий широкий круг тем – от самых азов (настройка рабочей среды) до практических задач (рассмотрение ОП на конкретных примерах).
Вы научитесь использовать алгоритм «многоруких бандитов» и аппроксимацию функций; узнаете, как победить в играх Atari с помощью глубоких Q-сетей и как эффективно реализовать метод градиента стратегии; увидите, как применить метод ОП к игре в блэкджек, к окружающим средам в сеточном мире, к оптимизации рекламы в интернете и к игре Flappy Bird.
Издание предназначено для специалистов по искусственному интеллекту, которым требуется помощь в решении задач ОП. Для изучения материала необходимо знакомство с концепциями машинного обучения; опыт работы с библиотекой PyTorch необязателен, но желателен.