DATA ENGINEERING
Опануйте трендову професію Data Engineer та працюйте з великими даними, штучним інтелектом і машинним навчанням.
Ілля Хороших
Data Platform Engineer у Lyft
former EPAM, Luxoft

Цей Data Engineering курс для:
-
DEVELOPERS
які знають Python, працюють з Git, хочуть розібратися в архітектурі великих даних, оптимізувати ETL-процеси та SQL-запити до БД і перейти в Data Engineering
-
DATA ANALYSTS
які знають SQL, працюють із невеликими обсягами даних та хочуть розширити стек для роботи саме з Big Data, скоротити час на підготовку даних до аналізу та автоматизувати цей процес
-
DATA ENGINEERS (BEGINNERS)
які вже працюють у сфері інженерії даних, але хочуть поглибити знання, автоматизувати процеси для підвищення ефективності й будувати надійні, масштабовані Big Data проєкти
До програми курсу входять:
-
РОЗБІР ІНСТРУМЕНТІВ
Опануєте ключові інструменти Data Engineer, зокрема Apache Airflow для розробки, планування та моніторингу, Hadoop — для обробки та збереження великих даних, Docker — для роботи з контейнерами, а Amazon S3 — для взаємодії з даними у хмарі.
-
РОЗПОДІЛЕНІ ОБЧИСЛЕННЯ
Розглянете архітектуру сучасних розподілених систем і вивчите готові рішення для дата-інженерів, опануєте інструменти для розподіленого зберігання файлів та обчислень.
-
КЕЙС У ПОРТФОЛІО
На практиці навчитеся розгортати Big Data кластери локально та у хмарному середовищі, розробите пайплайн для аналізу в AWS або локально, закріпите всі набуті навички та отримаєте фідбек від практика.
лектор
Ілля Хороших
Data Platform Engineer у Lyft, 7+ років досвіду з BigData, 6+ досвіду як Data Engineer
-
працював як на аутсорсі (EPAM, Luxoft, Newxel), так і в продуктових компаніях (Lyft)
-
реалізував серію пайплайнів для одного з найбільших виробників спортивного одягу, яка обробляла декілька терабайтів даних за 30 хвилин
-
бере участь у створенні рішень для обробки Big Data для сервісу, що має понад 23 млн користувачів
-
розробляв систему автоматичного калібрування ML-пайплайнів для компанії, що займається email security
Програма
-
01 заняття
Intro до курсу Data Engineering
- дізнаєтеся про історію інженерії даних та Big Data
- з’ясуєте, чим займається Data Engineer, чітко усвідомите його місце у команді та обовʼязки
- розглянете технології, з якими працюватимете на курсі
- зрозумієте, які завдання розв’язує конкретна Big Data технологія
-
02 заняття
Python для Data Engineering
- навчитеся правильно будувати сервіс на Python для обробки даних
- набудете навичок завантажувати дані із зовнішніх джерел за допомогою Python
- дізнаєтеся, що таке Jupyter Notebook та Pandas, яке призначення цих інструментів в інженерії даних
-
03 заняття
SQL для Data Engineering
- зрозумієте, для чого використовують SQL у Big Data
- розглянете базові операції SQL для обробки великих даних
- навчитеся обирати, об’єднувати, групувати й аналізувати дані за допомогою SQL-запитів
-
04 заняття
Аналітичні бази даних
- дізнаєтеся, які відмінності існують між OLTP- та OLAP-системами
- зрозумієте технічну реалізацію СУБД, призначених для аналітики
- з’ясуєте, як правильно писати SQL-запит до аналітичної БД
-
05 заняття
Проєктування сховищ даних
- дізнаєтеся, що таке шари даних
- з’ясуєте, що таке Data Warehouse (DWH), Data Lake, Data Swamp, Data Lakehouse та Data Mesh і чим вони відрізняються
- вивчите підходи до створення сховищ даних
- ознайомитеся з ETL- чи ELT-процесами та зрозумієте, які між ними відмінності
- розберете, як влаштовані сховища даних
- навчитеся представляти дані у вигляді вітрин
- розглянете принципи побудови аналітичного шару DWH: куби даних і багатовимірна модель, схема «зірка», схема «сніжинка», підходи до проєктування Кімбала та Інмана
- зможете проєктувати аналітичний шар DWH
-
06 заняття
Передача даних між системами: ETL- та ELT-процеси
- детально розглянете Extract, Transform, Load (ETL) ― найпопулярніший спосіб забезпечення роботи сховищ великих даних
- дізнаєтеся, як реалізовувати ETL-рішення
- докладно розберете Extract, Load, Transform (ELT) і відмінність від ETL
- навчитеся передавати дані між системами
- з’ясуєте, як вилучати дані із зовнішніх джерел, трансформувати й очищати
-
07 заняття
Оркестрація процесів обробки даних: Apache Airflow
- розглянете Apache Airflow як інструмент для створення, запуску та моніторингу ETL-процесів
- запустите Apache Airflow на своєму компʼютері, а також дізнаєтеся, як запустити Apache Airflow в хмарі
- дізнаєтеся, як створювати пайплайн в Apache Airflow, моніторити виконання завдань, проводити зневадження тощо
- набудете навичок писати свої оператори
- навчитеся підключатися до зовнішніх джерел даних за допомогою Apache Airflow
-
08 заняття
Розподілені обчислення
- ознайомитеся з поняттям розподілених систем і обчислень
- розглянете приклади сучасних розподілених систем
- дізнаєтеся, чим розподілені системи відрізняються від звичайних, які завдання вони розв’язують та які готові рішення вже існують
- зрозумієте, навіщо дата-інженеру знати властивості й обмеження розподілених систем у САР-теоремі
- з’ясуєте, на що варто звертати увагу під час побудови розподілених систем і чим можна пожертвувати для розвʼязання конкретного завдання
-
09 заняття
Екосистема Hadoop для розподіленої роботи
- дізнаєтеся, що таке Hadoop і де його застосовують
- опануєте HDFS для розподіленого зберігання файлів і MapReduce для розподілених обчислень
- зрозумієте призначення кожної технології у межах екосистеми Hadoop
- навчитеся користуватися Hadoop Distributed File System
-
10 заняття
Розподілені системи для зберігання даних: HDFS, S3 та GCS
- розберете файлові, блокові та обʼєктні сховища даних ― їхні відмінності та Use Cases
- навчитеся працювати з розподіленою файловою системою Hadoop
- зможете керувати файлами, завантажувати, вивантажувати дані, адмініструвати кластери за допомогою HDFS
- розглянете Amazon S3 та Google Cloud Storage як приклади обʼєктних сховищ даних
-
11 заняття
Big Data архітектури
- розберетеся в різних поколіннях архітектур
- зрозумієте, які проблеми розв’язує кожне покоління архітектури
- розглянете технології для кожної архітектури
-
12 заняття
Контейнери
- дізнаєтеся, що таке контейнери та навіщо вони потрібні
- зрозумієте, як працюють контейнерні технології Docker і в чому їхня відмінність від Virtual Machines
- навчитеся обгортати власний дистрибутив у Docker
-
13 заняття
Розподілені обчислення за допомогою Apache Spark
- дізнаєтеся, які завдання розв’язує Apache Spark і в чому його відмінність від MapReduce
- з’ясуєте, як Apache Spark використовують для організації великих даних
-
14 заняття
Робота зі структурованими даними: SparkSQL та PySpark. Part 1
- розглянете SparkSQL як API Apache Spark
- навчитеся виконувати базові операції та здійснювати трансформації над структурованими даними за допомогою SparkSQL
-
15 заняття
Робота зі структурованими даними: SparkSQL та PySpark. Part 2
- дізнаєтеся, як вивантажувати дані зі Spark
- навчитеся проводити аналітику на структурованих даних у Spark за допомогою SQL та PySpark
-
16 заняття
Оптимізація виконання завдань в Apache Spark
- дізнаєтеся, як писати ефективний код та прискорити обробку великих даних в Apache Spark
- розглянете способи організації даних у кластері Apache Spark: партиціювання даних, репартиціювання та кластеризація
- зрозумієте, які основні проблеми продуктивності існують у Spark, навчитеся виявляти й усувати їх
- зможете писати ефективний код у PySpark
- набудете навичок організовувати дані в кластері Apache Spark
-
17 заняття
Робота з потоковою обробкою даних в Apache Spark
- дізнаєтеся, як працювати з даними, які надходять безперервно
- розглянете Spark Streaming як інструмент для роботи з потоками даних
- зрозумієте, чим відрізняється обробка потокових даних від статичних
- навчитеся обробляти потоки даних за допомогою Spark Streaming
-
18 заняття
Інструменти AWS для інженерії даних. Part 1
- розберете Redshift як аналітичну DWH для надвеликих даних
- розглянете професійні інструменти аналітики та візуалізації: S3, ECS, EKS, AWS Lambda
- ознайомитеся з інструментами AWS для інженерії даних
- навчитеся працювати з S3 та контейнерними середовищами виконання
-
19 заняття
Інструменти AWS для інженерії даних. Part 2
- розглянете такі інструменти, як-от Amazon MWAA, Kinesis, AWS EMR, AWS Glue, AWS Glue Data Catalog, AWS Athena
- дізнаєтеся, як виконати ad-hoc запит до S3-об’єктів в AWS Athena
- зрозумієте, які кроки треба виконати, щоб отримати AWS-сертифікації
реєстрація
Опануйте найкращі практики роботи Data Engineer — фахівця з найвищою медіанною зарплатнею у сфері даних.
Старт курсу — у червні 2026 року


