Курс Data Engineering: Станьте інженером даних та будуйте інфраструктуру | robot_dreams
  • онлайн-курс
  • 19 занять
  • 12 інструментів обробки даних

DATA ENGINEERING

Опануйте навички та інструменти Data Engineering, які шукає ринок: від обробки великих даних — до побудови ETL-процесів та масштабованих Data Platform.

Ілля Хороших

former EPAM, Luxoft

Data Platform Engineer у Lyft

Цей Data Engineering курс для:

DATA ANALYSTS

які знають SQL, працюють із невеликими обсягами даних та хочуть розширити стек для роботи саме з Big Data, скоротити час на підготовку даних до аналізу та автоматизувати цей процес

DEVELOPERS

які знають Python, працюють з Git, хочуть розібратися в архітектурі великих даних, оптимізувати ETL-процеси та SQL-запити до БД і перейти в Data Engineering

DATA ENGINEERS (BEGINNERS)

які вже працюють у сфері інженерії даних, але хочуть поглибити знання, автоматизувати процеси для підвищення ефективності й будувати надійні, масштабовані Big Data проєкти

 

ПІСЛЯ КУРСУ ВИ:

  • сформуєте цілісне бачення архітектури даних і зможете декомпонувати процес обробки Big Data

  • опануєте сучасні підходи та інструменти роботи з даними

  • навчитеся витягувати дані з різних джерел, будувати ETL/ELT-процеси та налаштовувати інфраструктури для їхнього зберігання та обробки

  • зможете пропонувати технічні рішення, що витримують великі обсяги даних

  • створите власну дата-платформу, здатну до масштабування

До програми курсу входять:

  •  

    РОЗБІР ІНСТРУМЕНТІВ

    Опануєте ключові інструменти Data Engineer, зокрема Apache Airflow для розробки, планування та моніторингу, Hadoop — для обробки та збереження великих даних, Docker — для роботи з контейнерами, а Amazon S3 — для взаємодії з даними у хмарі.

  •  

    РОЗПОДІЛЕНІ ОБЧИСЛЕННЯ

    Розглянете архітектуру сучасних розподілених систем і вивчите готові рішення для дата-інженерів, опануєте інструменти для розподіленого зберігання файлів та обчислень.

  •  

    КЕЙС У ПОРТФОЛІО

    На практиці навчитеся розгортати Big Data кластери локально та у хмарному середовищі, розробите пайплайн для аналізу в AWS або локально, закріпите всі набуті навички та отримаєте фідбек від практика.

лектор

Ілля Хороших

Data Platform Engineer у Lyft

  • працював як на аутсорсі (EPAM, Luxoft, Newxel), так і в продуктових компаніях (Lyft)

  • реалізував серію пайплайнів для одного з найбільших виробників спортивного одягу, яка обробляла декілька терабайтів даних за 30 хвилин

  • бере участь у створенні рішень для обробки Big Data для сервісу, що має понад 23 млн користувачів

  • розробляв систему автоматичного калібрування ML-пайплайнів для компанії, що займається email security

Програма

  • 01 заняття
    29.10.2025 19:30

    Intro до курсу Data Engineering

    • дізнаєтеся про історію інженерії даних та Big Data
    • з’ясуєте, чим займається Data Engineer, чітко усвідомите його місце у команді та обовʼязки
    • розглянете технології, з якими працюватимете на курсі
    • зрозумієте, які завдання розв’язує конкретна Big Data технологія
  • 02 заняття
    03.11.2025 19:30

    Python для Data Engineering

    • навчитеся правильно будувати сервіс на Python для обробки даних
    • набудете навичок завантажувати дані із зовнішніх джерел за допомогою Python
    • дізнаєтеся, що таке Jupyter Notebook та Pandas, яке призначення цих інструментів в інженерії даних
  • 03 заняття
    05.11.2025 19:30

    SQL для Data Engineering

    • зрозумієте, для чого використовують SQL у Big Data
    • розглянете базові операції SQL для обробки великих даних
    • навчитеся обирати, об’єднувати, групувати й аналізувати дані за допомогою SQL-запитів
  • 04 заняття
    10.11.2025 19:30

    Аналітичні бази даних

    • дізнаєтеся, які відмінності існують між OLTP- та OLAP-системами
    • зрозумієте технічну реалізацію СУБД, призначених для аналітики
    • з’ясуєте, як правильно писати SQL-запит до аналітичної БД
  • 05 заняття
    12.11.2025 19:30

    Проєктування сховищ даних

    • дізнаєтеся, що таке шари даних
    • з’ясуєте, що таке Data Warehouse (DWH), Data Lake, Data Swamp, Data Lakehouse та Data Mesh і чим вони відрізняються
    • вивчите підходи до створення сховищ даних
    • ознайомитеся з ETL- чи ELT-процесами та зрозумієте, які між ними відмінності
    • розберете, як влаштовані сховища даних
    • навчитеся представляти дані у вигляді вітрин
    • розглянете принципи побудови аналітичного шару DWH: куби даних і багатовимірна модель, схема «зірка», схема «сніжинка», підходи до проєктування Кімбала та Інмана
    • зможете проєктувати аналітичний шар DWH
  • 06 заняття
    17.11.2025 19:30

    Передача даних між системами: ETL- та ELT-процеси

    • детально розглянете Extract, Transform, Load (ETL) ― найпопулярніший спосіб забезпечення роботи сховищ великих даних
    • дізнаєтеся, як реалізовувати ETL-рішення
    • докладно розберете Extract, Load, Transform (ELT) і відмінність від ETL
    • навчитеся передавати дані між системами
    • з’ясуєте, як вилучати дані із зовнішніх джерел, трансформувати й очищати
  • 07 заняття
    19.11.2025 19:30

    Оркестрація процесів обробки даних: Apache Airflow

    • розглянете Apache Airflow як інструмент для створення, запуску та моніторингу ETL-процесів
    • запустите Apache Airflow на своєму компʼютері, а також дізнаєтеся, як запустити Apache Airflow в хмарі
    • дізнаєтеся, як створювати пайплайн в Apache Airflow, моніторити виконання завдань, проводити зневадження тощо
    • набудете навичок писати свої оператори
    • навчитеся підключатися до зовнішніх джерел даних за допомогою Apache Airflow
  • 08 заняття
    24.11.2025 19:30

    Розподілені обчислення

    • ознайомитеся з поняттям розподілених систем і обчислень
    • розглянете приклади сучасних розподілених систем
    • дізнаєтеся, чим розподілені системи відрізняються від звичайних, які завдання вони розв’язують та які готові рішення вже існують
    • зрозумієте, навіщо дата-інженеру знати властивості й обмеження розподілених систем у САР-теоремі
    • з’ясуєте, на що варто звертати увагу під час побудови розподілених систем і чим можна пожертвувати для розвʼязання конкретного завдання
  • 09 заняття
    26.11.2025 19:30

    Екосистема Hadoop для розподіленої роботи

    • дізнаєтеся, що таке Hadoop і де його застосовують
    • опануєте HDFS для розподіленого зберігання файлів і MapReduce для розподілених обчислень
    • зрозумієте призначення кожної технології у межах екосистеми Hadoop
    • навчитеся користуватися Hadoop Distributed File System
  • 10 заняття
    08.12.2025 19:30

    Розподілені системи для зберігання даних: HDFS, S3 та GCS

    • розберете файлові, блокові та обʼєктні сховища даних ― їхні відмінності та Use Cases
    • навчитеся працювати з розподіленою файловою системою Hadoop
    • зможете керувати файлами, завантажувати, вивантажувати дані, адмініструвати кластери за допомогою HDFS
    • розглянете Amazon S3 та Google Cloud Storage як приклади обʼєктних сховищ даних
  • 11 заняття
    10.12.2025 19:30

    Big Data архітектури

    • розберетеся в різних поколіннях архітектур
    • зрозумієте, які проблеми розв’язує кожне покоління архітектури
    • розглянете технології для кожної архітектури
  • 12 заняття
    17.12.2025 19:30

    Контейнери

    • дізнаєтеся, що таке контейнери та навіщо вони потрібні
    • зрозумієте, як працюють контейнерні технології Docker і в чому їхня відмінність від Virtual Machines
    • навчитеся обгортати власний дистрибутив у Docker
  • 13 заняття
    15.12.2025 19:30

    Розподілені обчислення за допомогою Apache Spark

    • дізнаєтеся, які завдання розв’язує Apache Spark і в чому його відмінність від MapReduce
    • з’ясуєте, як Apache Spark використовують для організації великих даних
  • 14 заняття
    22.12.2025 19:30

    Робота зі структурованими даними: SparkSQL та PySpark. Part 1

    • розглянете SparkSQL як API Apache Spark
    • навчитеся виконувати базові операції та здійснювати трансформації над структурованими даними за допомогою SparkSQL
  • 15 заняття
    12.01.2026 19:30

    Робота зі структурованими даними: SparkSQL та PySpark. Part 2

    • дізнаєтеся, як вивантажувати дані зі Spark
    • навчитеся проводити аналітику на структурованих даних у Spark за допомогою SQL та PySpark
  • 16 заняття
    14.01.2026 19:30

    Оптимізація виконання завдань в Apache Spark

    • дізнаєтеся, як писати ефективний код та прискорити обробку великих даних в Apache Spark
    • розглянете способи організації даних у кластері Apache Spark: партиціювання даних, репартиціювання та кластеризація
    • зрозумієте, які основні проблеми продуктивності існують у Spark, навчитеся виявляти й усувати їх
    • зможете писати ефективний код у PySpark
    • набудете навичок організовувати дані в кластері Apache Spark
  • 17 заняття
    19.01.2026 19:30

    Робота з потоковою обробкою даних в Apache Spark

    • дізнаєтеся, як працювати з даними, які надходять безперервно
    • розглянете Spark Streaming як інструмент для роботи з потоками даних
    • зрозумієте, чим відрізняється обробка потокових даних від статичних
    • навчитеся обробляти потоки даних за допомогою Spark Streaming
  • 18 заняття
    21.01.2026 19:30

    Інструменти AWS для інженерії даних. Part 1

    • розберете Redshift як аналітичну DWH для надвеликих даних
    • розглянете професійні інструменти аналітики та візуалізації: S3, ECS, EKS, AWS Lambda
    • ознайомитеся з інструментами AWS для інженерії даних
    • навчитеся працювати з S3 та контейнерними середовищами виконання
  • 19 заняття
    04.02.2026 19:30

    Інструменти AWS для інженерії даних. Part 2

    • розглянете такі інструменти, як-от Amazon MWAA, Kinesis, AWS EMR, AWS Glue, AWS Glue Data Catalog, AWS Athena
    • дізнаєтеся, як виконати ad-hoc запит до S3-об’єктів в AWS Athena
    • зрозумієте, які кроки треба виконати, щоб отримати AWS-сертифікації

реєстрація

Підключайтеся до навчання, щоб опанувати 12 ключових інструментів Data Engineer та перетворити роботу з даними на свою конкурентну перевагу.

 
 
 
Реєструючись, ви погоджуєтеся з умовами договору-оферти та політикою конфіденційності.