Web Scraping
Научитесь парсить данные с любого веб-ресурса, несмотря на блокеры и ограничения информации
Владислав Абрамов,
Python Engineer в Jooble
7+ лет опыта в Web Scraping
Для кого
О курсе:
- Продолжительность:
11 занятий
- Результат:
4 собственных скрапера
За 11 занятий на курсе вы овладеете вебскрапингом на практике – от мониторинга информации до поиска лидов и обхода блокировщиков – и научитесь они создают собственные скраперы, таким образом «вытаскивая» необходимую информацию из разных вебресурсов.
В программу курса входят:
-
01
Основы Web Scraping
Будете изучать базовые концепции веб-скрапинга, аспекты легальности, методы извлечения данных с веб-страниц с помощью RegEx, CSS-селекторов и XPath. А также рассмотрите техники обхода защиты сайтов, включая использование user-agent и прокси.
-
02
Обработка больших объемов данных
С помощью основных библиотек и фреймворков Beautiful Soup, Scrapy, Selenium научитесь автоматизировать сбор и обработку больших объемов информации, чтобы иметь гибкость в выборе подхода к скрапингу.
-
03
Создание скраперов
Программа на 70 % состоит из практики — для отработки взаимодействия с разными блокерами и форматами. В финале обучения будет 4 готовых скрапера под каждую библиотеку, а также курсовой проект для портфолио.
лектор
Владислав Абрамов
Python Engineer в Jooble
-
7+ лет опыта в Web Scraping
-
занимал должность Web Scraping Team Lead в Jooble
-
мониторил работу более 200 000 скраперов
-
создавал скраперы под разные потребности — от аналитики конкурентов до закрытия потребностей Sales Team
Программа
-
01 занятие29.10.2024 18:30
Введение в курс Web Scraping
- Разберетесь, что такое Web Scraping и какие существуют библиотеки для разработки скраперов
- Узнаете, где можно использовать полученные за курс знания
- Поймете этические и легальные аспекты использования скраперов
-
02 занятие31.10.2024 18:30
Начало работы в парсинге данных
- Обработаете основные языки разметки вебсайтов — HTML, XML, JSON
- Создадите виртуальное окружение и установите нужные библиотеки для парсинга данных
-
03 занятие05.11.202418:30
Методы извлечения данных
- Поймете, как строить XPath для доступа к любому тегу в документе
- Освоите регулярные выражения и CSS-селекторы для поиска и извлечения информации с веб-страниц
-
04 занятие07.11.202418:30
HTTP Requests
- Узнаете типы запросов и ответов
- Обработаете инструмент Postman
- Научитесь использовать библиотеку Requests для отправки запросов на сервер
-
05 занятие12.11.202418:30
Работа с данными в Web Scraping
- Научитесь хранить данные локально и в базе данных
- Сможете выбрать оптимальный формат хранения данных для дальнейшего анализа
- Научитесь писать SQL-запросы для анализа
-
06 занятие14.11.202418:30
Beautiful Soup
- Научитесь использовать библиотеку Beautiful Soup для парсинга сайтов
- Обработаете Threads для парсинга
- Найдете нужные HTML-теги с помощью BS
-
07 занятие19.11.202418:30
Scrapy
- Освоите фреймворк Scrapy для парсинга сайтов
- Ознакомитесь с понятием Spider
- Научитесь использовать Spider для парсинга сайта
- Сможете сохранять полученные данные в разных форматах
-
08 занятие21.11.202418:30
Selenium
- Разберете библиотеку Selenium для парсинга сайтов
- Научитесь работать с CSS-селекторами или XPath для нахождения нужных элементов
- Освоите Selenium для заполнения форм и кликов на странице
-
09 занятие26.11.202418:30
Как избежать защиты от Web Scrapers
- Примените подходы к имитации реального пользователя для успешного получения контента страницы
-
10 занятие28.11.202418:30
Q&A-сессия с лектором
-
11 занятие03.12.202418:30
Презентация курсовых проектов
регистрация
После заполнения формы с вами свяжется наш менеджер, чтобы уточнить все детали и ответить на вопросы