Курс веб-скрапінгу за допомогою RegEx, CSS-селекторів та XPath | robot_dreams
  • онлайн-курс
  • 5 тижнів
  • кейс у портфоліо
  • створення скраперів

Web Scraping

Навчіться парсити дані з будь-якого вебресурсу, не зважаючи на блокери та обмеження інформації

Владислав Абрамов,

Python Engineer у Jooble

7+ років досвіду у Web Scraping

Для кого

Junior/Middle Developers

щоб автоматизувати процес пошуку інформації, обходити блокери, отримувати велику кількість даних і не робити це вручну

Junior/Middle-аналітики та Data Science спеціалісти

щоб мінімізувати помилки під час перенесення та форматування даних, а також покращити моніторинг показників, що змінюються в режимі реального часу

Всі, хто має базове розуміння Python

щоб опанувати новий інструмент збору даних, який допоможе оптимізувати роботу бізнесу та отримати більше якісної інформації про своїх клієнтів і конкурентів

 

Про курс:

  • Тривалість:

    11 занять

  • Результат:

    4 власних скрапери

За 11 занять на курсі ви опануєте вебскрапінг на практиці — від моніторингу інформації до пошуку лідів та обходу блокерів — та навчитеся створювати власні скрапери, щоб «витягувати» необхідну інформацію з різних вебресурсів.

До програми курсу входять:

  • 01

    Основи Web Scraping

    Вивчатимете базові концепції вебскрапінгу, аспекти легальності, методи вилучення даних із вебсторінок за допомогою RegEx, CSS-селекторів та XPath. А також розглянете техніки обходу захисту сайтів, включно з використанням user-agent і проксі.

  • 02

    Обробка великих обсягів даних

    За допомогою основних бібліотек та фреймворків Beautiful Soup, Scrapy, Selenium навчитесь автоматизувати збір та обробку великих обсягів інформації, щоб мати гнучкість у виборі підходу до скрапінгу.

  • 03

    Створення скраперів

    Програма на 70 % складається з практики — для відпрацювання роботи з різними блокерами та форматами. У фіналі навчання матимете 4 готових скрапери під кожну бібліотеку, а також курсовий проєкт для портфоліо.

лектор

Владислав Абрамов

Python Engineer у Jooble

  • має 7+ років досвіду у Web Scraping

  • обіймав посаду Web Scraping Team Lead у Jooble

  • моніторив роботу понад 200 000 скраперів

  • створював скрапери під різні потреби — від аналітики конкурентів до закриття потреб Sales Team

Програма

  • 01 заняття

    Вступ до курсу Web Scraping

    • З’ясуєте, що таке Web Scraping та які є бібліотеки для розробки скраперів
    • Дізнаєтеся, де можна використовувати набуті за курс знання
    • Зрозумієте етичні та легальні аспекти використання скраперів
  • 02 заняття

    Початок роботи в парсингу даних

    • Опрацюєте основні мови розмітки вебсайтів — HTML, XML, JSON
    • Створите віртуальне оточення та встановите потрібні бібліотеки для парсингу даних
  • 03 заняття

    Методи вилучення даних

    • Зрозумієте, яким чином будувати XPath для доступу до будь-якого тегу в документі
    • Опануєте регулярні вирази та CSS-селектори для пошуку та вилучення інформації з вебсторінок
  • 04 заняття

    HTTP Requests

    • Дізнаєтеся про типи запитів та відповідей
    • Опрацюєте інструмент Postman
    • Навчитеся використовувати бібліотеку Requests для відправлення запитів на сервер
  • 05 заняття

    Робота з даними у Web Scraping

    • Навчитеся зберігати дані локально та в бази даних
    • Зможете обирати оптимальний формат збереження даних для подальшого аналізу
    • Навчитеся писати SQL-запити для аналізу
  • 06 заняття

    Beautiful Soup

    • Навчитеся використовувати бібліотеку Beautiful Soup для парсингу сайтів
    • Опрацюєте Threads для парсингу
    • Знайдете потрібні HTML-теги за допомогою BS
  • 07 заняття

    Scrapy

    • Опануєте фреймворк Scrapy для парсингу сайтів
    • Ознайомитеся з поняттям Spider
    • Навчитеся використовувати Spider для парсингу сайту
    • Зможете зберігати отримані дані в різних форматах
  • 08 заняття

    Selenium

    • Розберете бібліотеку Selenium для парсингу сайтів
    • Навчитеся працювати із CSS-селекторами або XPath для знаходження потрібних елементів
    • Опануєте Selenium для заповнення форм та кліків на сторінці
  • 09 заняття

    Як уникнути захисту від Web Scrapers

    • Попрактикуєте підходи до імітації реального користувача для успішного отримання контенту сторінки
  • 10 заняття

    Q&A-сесія з лектором

  • 11 заняття

    Презентація курсових проєктів

реєстрація

Після заповнення форми з вами зв’яжеться наш менеджер, щоб уточнити всі деталі та відповісти на запитання

 
 
 
Реєструючись, ви погоджуєтеся з умовами договору-оферти та політикою конфіденційності.