Введение ................................................................................................................................. 12
Часть I
РАЗРАБОТКА ВЕБ-СКРАПЕРОВ
Глава 1. Как работает Интернет ................................................................................................. 20
Глава 2. Законность и этичность веб-скрапинга .......................................................................... .35
Глава 3. Применение веб-скрапинга ........................................................................................... .53
Глава 4. Ваш первый веб-скрапер ............................................................................................... 63
Глава S. Углубленный парсинг HTML ............................................................................................ 75
Глава 6. Разработка веб-краулеров .............................................................................................. 93
Глава 7. Модели веб-краулинга ................................................................................................... 109
Глава 8. Scrapy .......................................................................................................................... 126
Глава 9. Хранение данных .......................................................................................................... 142
ЧАСТЬ II
УГЛУБЛЕННЫЙ ВЕБ-СКРАПИНГ
Глава 10. Чтение документов ....................................................................................................... 166
Глава 11.Обработка «грязных»данных ......................................................................................... 180
Глава 12. Чтение и запись текстов на естественных языках ........................................................... 195
Глава 13. Краулингформ и авторизация ....................................................................................... 217
Глава 14. Веб-скрапинг данных JavaScript .................................................................................... 227
Глава 1 S. Краулинг с помощью API ............................................................................................. 244
Глава 16. Обработка изображений и распознавание текста ........................................................... 259
Глава 17. Как избежать ловушек веб-скрапинга ........................................................................... 284
Глава 18. Тестирование сайтов с помощью веб-скраперов ............................................................. 299
Глава 19. Параллельный веб-скрапинг ......................................................................................... 311
Глава 20. Прокси-сервисы для веб-скрапинга ............................................................................... 327
Об авторе .................................................................................................................................. 349
Иллюстрация на обложке ............................................................................................................ 350
Если программирование — магия, то веб-скрапинг — настоящее колдовство. Написав простую автоматизированную программу, можно отправлять запросы веб-серверам, получать ответы с данными, а затем анализировать эти данные и извлекать необходимую информацию. Это обновленное третье издание книги не только познакомит вас с веб-скрапингом, но и послужит исчерпывающим руководством по сбору практически любых видов данных в современном Интернете.
В части I основное внимание уделено механике веб-скрапинга: как с помощью Python отправлять запросы веб-серверам, обрабатывать ответы и автоматизировать взаимодействие с сайтами.
В части II исследуются более конкретные инструменты и приложения, которые пригодятся при любом сценарии веб-скрапинга.
Книга покажет, как: