Курс веб-скраппинга с помощью RegEx, CSS-селекторов и XPath | robot_dreams
  • онлайн-курс
  • 5 недель
  • кейс в портфолио
  • создание скраперов

Web Scraping

Научитесь парсить данные с любого веб-ресурса, несмотря на блокеры и ограничения информации

Владислав Абрамов,

Python Engineer в Jooble

7+ лет опыта в Web Scraping

Для кого

Junior/Middle Developers

чтобы автоматизировать процесс поиска информации, обходить блокеры, получать большое количество данных и не делать это вручную

Junior/Middle-аналитики и Data Science специалисты

чтобы минимизировать ошибки при переносе и форматировании данных, а также улучшить мониторинг показателей, изменяющихся в режиме реального времени

Все, кто имеет базовое понимание Python

чтобы овладеть новым инструментом сбора данных, который поможет оптимизировать работу бизнеса и получить больше качественной информации о своих клиентах и конкурентах

 

О курсе:

  • Продолжительность:

    11 занятий

  • Результат:

    4 собственных скрапера

За 11 занятий на курсе вы овладеете вебскрапингом на практике – от мониторинга информации до поиска лидов и обхода блокировщиков – и научитесь они создают собственные скраперы, таким образом «вытаскивая» необходимую информацию из разных вебресурсов.

В программу курса входят:

  • 01

    Основы Web Scraping

    Будете изучать базовые концепции веб-скрапинга, аспекты легальности, методы извлечения данных с веб-страниц с помощью RegEx, CSS-селекторов и XPath. А также рассмотрите техники обхода защиты сайтов, включая использование user-agent и прокси.

  • 02

    Обработка больших объемов данных

    С помощью основных библиотек и фреймворков Beautiful Soup, Scrapy, Selenium научитесь автоматизировать сбор и обработку больших объемов информации, чтобы иметь гибкость в выборе подхода к скрапингу.

  • 03

    Создание скраперов

    Программа на 70 % состоит из практики — для отработки взаимодействия с разными блокерами и форматами. В финале обучения будет 4 готовых скрапера под каждую библиотеку, а также курсовой проект для портфолио.

лектор

Владислав Абрамов

Python Engineer в Jooble

  • 7+ лет опыта в Web Scraping

  • занимал должность Web Scraping Team Lead в Jooble

  • мониторил работу более 200 000 скраперов

  • создавал скраперы под разные потребности — от аналитики конкурентов до закрытия потребностей Sales Team

Программа

  • 01 занятие

    Введение в курс Web Scraping

    • Разберетесь, что такое Web Scraping и какие существуют библиотеки для разработки скраперов
    • Узнаете, где можно использовать полученные за курс знания
    • Поймете этические и легальные аспекты использования скраперов
  • 02 занятие

    Начало работы в парсинге данных

    • Обработаете основные языки разметки вебсайтов — HTML, XML, JSON
    • Создадите виртуальное окружение и установите нужные библиотеки для парсинга данных
  • 03 занятие

    Методы извлечения данных

    • Поймете, как строить XPath для доступа к любому тегу в документе
    • Освоите регулярные выражения и CSS-селекторы для поиска и извлечения информации с веб-страниц
  • 04 занятие

    HTTP Requests

    • Узнаете типы запросов и ответов
    • Обработаете инструмент Postman
    • Научитесь использовать библиотеку Requests для отправки запросов на сервер
  • 05 занятие

    Работа с данными в Web Scraping

    • Научитесь хранить данные локально и в базе данных
    • Сможете выбрать оптимальный формат хранения данных для дальнейшего анализа
    • Научитесь писать SQL-запросы для анализа
  • 06 занятие

    Beautiful Soup

    • Научитесь использовать библиотеку Beautiful Soup для парсинга сайтов
    • Обработаете Threads для парсинга
    • Найдете нужные HTML-теги с помощью BS
  • 07 занятие

    Scrapy

    • Освоите фреймворк Scrapy для парсинга сайтов
    • Ознакомитесь с понятием Spider
    • Научитесь использовать Spider для парсинга сайта
    • Сможете сохранять полученные данные в разных форматах
  • 08 занятие

    Selenium

    • Разберете библиотеку Selenium для парсинга сайтов
    • Научитесь работать с CSS-селекторами или XPath для нахождения нужных элементов
    • Освоите Selenium для заполнения форм и кликов на странице
  • 09 занятие

    Как избежать защиты от Web Scrapers

    • Примените подходы к имитации реального пользователя для успешного получения контента страницы
  • 10 занятие

    Q&A-сессия с лектором

  • 11 занятие

    Презентация курсовых проектов

регистрация

После заполнения формы с вами свяжется наш менеджер, чтобы уточнить все детали и ответить на вопросы

 
 
 
Регистрируясь, вы соглашаетесь с условиями договора-оферты и политикой конфиденциальности