Введение ....12
Часть I
РАЗРАБОТКА ВЕБ-СКРАПЕРОВ
Глава 1. Как работает Интернет ....20
Глава 2. Законность и этичность веб-скрапинга .......................................................................... ....35
Глава 3. Применение веб-скрапинга ........................................................................................... ....53
Глава 4. Ваш первый веб-скрапер ....63
Глава S. Углубленный парсинг HTML ....75
Глава 6. Разработка веб-краулеров ....93
Глава 7. Модели веб-краулинга ....109
Глава 8. Scrapy ....126
Глава 9. Хранение данных ....142
ЧАСТЬ II
УГЛУБЛЕННЫЙ ВЕБ-СКРАПИНГ
Глава 10. Чтение документов ....166
Глава 11.Обработка «грязных»данных ....180
Глава 12. Чтение и запись текстов на естественных языках ....195
Глава 13. Краулингформ и авторизация ....217
Глава 14. Веб-скрапинг данных JavaScript ....227
Глава 1 S. Краулинг с помощью API ....244
Глава 16. Обработка изображений и распознавание текста ....259
Глава 17. Как избежать ловушек веб-скрапинга ....284
Глава 18. Тестирование сайтов с помощью веб-скраперов ....299
Глава 19. Параллельный веб-скрапинг ....311
Глава 20. Прокси-сервисы для веб-скрапинга ....327
Об авторе ....349
Иллюстрация на обложке ....350
Если программирование — магия, то веб-скрапинг — настоящее колдовство. Написав простую автоматизированную программу, можно отправлять запросы веб-серверам, получать ответы с данными, а затем анализировать эти данные и извлекать необходимую информацию. Это обновленное третье издание книги не только познакомит вас с веб-скрапингом, но и послужит исчерпывающим руководством по сбору практически любых видов данных в современном Интернете.
В части I основное внимание уделено механике веб-скрапинга: как с помощью Python отправлять запросы веб-серверам, обрабатывать ответы и автоматизировать взаимодействие с сайтами.
В части II исследуются более конкретные инструменты и приложения, которые пригодятся при любом сценарии веб-скрапинга.