Курс підійде:
-
SOFTWARE/SQL/ETL DEVELOPER щоби поринути у процес обробки даних та опанувати ключові інструменти, серед яких — Apache Airflow, Apache Hadoop, Apache Spark.
-
DATA ANALYST / DATA SCIENTIST щоби вибудовувати процеси завантаження/вивантаження даних, проєктувати сховища, налаштовувати автоматичне оновлення пайплайнів та оптимізувати роботу.
-
DATA ENGINEER (BEGINNER) щоби впорядкувати дані, навчитися проєктувати зрозумілу архітектуру під завдання бізнесу та оперативно обробляти до 1 Пбайта даних.
На курсі ви:
-
• навчитеся шукати коректні даних у масивах, застосовуючи знання Python та SQL;
• дізнаєтеся, як налаштовувати ETL-процеси й передавати інформацію між системами;
• запускатимете автоматичне оновлення дата-пайплайнів і навчитеся будувати Big Data Platforms, які здатні масштабуватися;
• опануєте 6 ключових інструментів інженера даних та зможете передавати коректні показники для ухвалення ефективних бізнес-рішень;
• розробите два пайплайни даних для аналізу продажів як курсовий проєкт.
До програми курсу входять:
-
ТЕОРІЯ Розберете наявні рішення обробки Big Data, дізнаєтеся, на що зважати під час розробки системи та як не панікувати, коли вимоги змінюються.
-
ІНСТРУМЕНТИ Розберетеся в інтерфейсі та навчитеся користуватися Hadoop, Apache Airflow, Apache Spark, SparkSQL, HDFS.
-
ПРОЄКТ Побудуєте два пайплайни даних для аналізу продажів на Google Cloud або PySpark і додасте кейс у своє портфоліо.
-
КАР’ЄРА Відкриєте новий підхід у роботі з Big Data, отримаєте рекомендації з працевлаштування та почнете шлях у Data Engineering.
Лектор:
Михайло
Лазорик
- Data Engineer у Grid Dynamics
- має 6+ років досвіду роботи з Big Data та 2+ роки досвіду викладання
- починав кар’єру як Python-розробник у компанії Ericsson
- має досвід роботи зі світовими клієнтами, як-от PepsiCo та Jabil
- займався великими обсягами даних, відповідав за побудову ETL-процесів
- запроваджував рішення у сферах маркетингу, логістики й телекомунікації
ПРОГРАМА
-
01
19.09.2024 / четвер
Вступ до Data Engineering
- З’ясуєте все, що хотіли знати про професію Data Engineer: цілі, напрямки, завдання, обов’язки та функції у команді.
- Дізнаєтеся історію інженерії даних і Big Data.
- Розберете відмінності між Data Engineer та Big Data Engineer.
- Отримаєте огляд інструментів для роботи з Big Data: бази даних, Hadoop Stack, брокери повідомлень, хмарні рішення.
- Ознайомитеся з технологіями, з якими працюватимете під час курсу.
-
02
23.09.2024 / понеділок
Python для Data Engineering
- Навчитеся правильно будувати сервіс на Python для обробки даних.
- Дізнаєтесь, які бувають джерела даних.
- Навчитеся правильно працювати з API джерел даних.
- Навчитеся працювати в Jupyter Notebook та розберетеся з бібліотекою Pandas.
-
03
26.09.2024 / четвер
SQL для Data Engineering
- Дізнаєтеся, для чого використовують SQL у Big Data.
- Навчитеся об’єднувати набори даних за допомогою SQL: JOIN, UNION, EXCEPT.
- Почнете використовувати SQL для аналітичних запитів: аналітичні функції, групування даних, віконні функції.
- Зрозумієте, як написати SQL-запит оптимально.
-
04
30.09.2024 / понеділок
Аналітичні бази даних
- Виявите відмінність між системами OLTP та OLAP.
- Зрозумієте технічну реалізацію баз даних для OLTP та OLAP на прикладі PostgreSQL та Google BigQuery.
- Дізнаєтеся, як правильно писати SQL-запити для транзакційних та аналітичних баз даних, і розберете найпоширеніші помилки під час побудови SQL-запиту.
-
05
03.10.2024 / четвер
Проєктування сховищ даних
- Дізнаєтеся про призначення сховищ даних та підходи до їхнього проєктування.
- Дізнаєтеся, що таке Data Warehouse (DWH), Data Lake (DL) та Data Swamp (DS).
- Зрозумієте, як проєктувати аналітичний шар DWH.
- Розглянете підходи до проєктування Кімбала та Інмана.
- Дізнаєтеся, що таке вітрини даних, і навчитеся подавати дані у вигляді вітрин.
- Розберете приклади наявних сховищ даних.
-
06
07.10.2024 / понеділок
Передача даних між системами: ETL- та ELT-процеси
- Дізнаєтеся, чому ETL ― найпопулярніший спосіб забезпечення роботи сховищ даних.
- Зрозумієте, як дані пересилають між системами.
- Навчитеся отримувати дані із зовнішніх джерел, трансформувати та очищати їх.
- Навчитеся створювати, запускати та моніторити ETL-процеси.
- Розберете особливості різних форматів файлів: CSV, JSON, JSONLine, Avro, Parquet, ORC.
-
07
10.10.2024 / четвер
Оркестрація процесів обробки даних в Apache Airflow
- Отримаєте детальний огляд Apache Airflow для керування процесами ETL.
- Вивчите Directed Acyclic Graph (спрямований ациклічний граф) для опису пайплайнів.
- Переглянете найпопулярніші оператори в Apache Airflow і навчитеся писати свої.
- Дізнаєтеся, що таке хуки, провайдери та змінні.
- Отримаєте best practices для роботи з Apache Airflow.
-
08
14.10.202 / понеділок
Розподілені обчислення
- Розберетеся з поняттям розподілених систем та обчислень.
- Дізнаєтесь, які завдання вони розв’язують та які готові рішення вже є.
- Виявите відмінності розподілених систем від звичайних, розглянете їхні переваги та недоліки.
- Розберетеся в САР-теоремі.
- Дізнаєтеся, на що варто звернути увагу впродовж побудови розподілених систем і чим можна пожертвувати під час розв’язання конкретного завдання.
-
09
17.10.2024 / четвер
Екосистема Hadoop для розподіленої роботи з файлами
- Навчитеся користуватися екосистемою Hadoop.
- Дізнаєтесь, у чому призначення кожної технології в межах екосистеми Hadoop.
- Вивчите альтернативи Hadoop.
- Почнете використовувати Hadoop Distributed File System.
-
10
221.10.2024 / понеділок
Розподілені файлові системи: HDFS, S3 та GCS
- Вивчите внутрішню архітектуру HDFS та особливості її реалізації.
- Навчитеся працювати з HDFS: керувати файлами, завантажувати та вивантажувати дані.
- Навчитеся працювати з Amazon S3 та Google Cloud Storage.
-
11
24.10.2024 / четвер
BigData-архітектури
- Ознайомитеся з трьома поколіннями архітектури Big Data та дізнаєтеся, навіщо вони потрібні.
- Розберетеся, які технології мають та які проблеми розв’язують різні покоління архітектур.
-
12
28.10.2024 / понеділок
Розподілені обчислення за допомогою Apache Spark
- Отримаєте огляд технології Apache Spark і дізнаєтесь, які завдання вона розв’язує. Виявите її відмінності від MapReduce.
- Зрозумієте, чому Apache Spark стала флагманською технологією у світі BigData.
- Навчитеся використовувати Apache Spark для створення великих даних.
- Вивчите варіанти використання Apache Spark: способи організації даних RDD, Data Frame та Dataset ― і дізнаєтеся, у яких випадках та з якими даними використовують кожен із цих підходів.
-
13
31.10.2024 / четвер
Робота зі структурованими даними за допомогою SparkSQL. Part 1
- Почнете знайомство зі SparkSQL ― одним із синтаксисів Apache Spark.
- Навчитеся завантажувати дані в Spark.
- Вивчите роботу Spark із зовнішніми джерелами даних.
- Розберетеся в базових операціях Spark DataFrame для трансформації структурованих даних.
-
14
04.11.2024 / понеділок
Робота зі структурованими даними за допомогою SparkSQL. Part 2
- Дізнаєтеся, як вивантажувати дані зі Spark.
- Навчитеся проводити аналітику на структурованих даних у Spark.
-
15
07.11.2024 / четвер
Оптимізація виконання завдань в Apache Spark
- Зрозумієте, як написати ефективний код і прискорити обробку великих даних в Apache Spark.
- Навчитеся виявляти основні проблеми продуктивності Spark, усунете їх.
- Організуєте дані в кластері Apache Spark.
-
16
11.11.2024 / понеділок
Потоки даних Apache Spark
- Зрозумієте, чим відрізняється обробка потокових даних від статичних.
- Навчитеся обробляти потоки даних за допомогою Spark Streaming.
- Розберете приклад програми аналізу потокових даних.
-
17
14.11.2024 / четвер
Огляд інструментів Google Cloud для інженерії даних. Part 1
- Ознайомитеся з BigQuery ― аналітичною розподіленою базою для сотень Пбайт даних.
- Отримаєте огляд професійних інструментів аналітики та візуалізації — Data Studio та Looker.
- Дізнаєтеся, як працювати з Google Storage (GCS).
- Розберетеся в контейнерних середовищах виконання: GKE та сучасні безопераційні середовища Cloud Functions та Cloud Run.
-
18
18.11.2024 / понеділок
Огляд інструментів Google Cloud для інженерії даних. Part 2
- Отримаєте огляд Google Composer.
- Дізнаєтеся, як працювати з децентралізованою безсерверною системою обміну повідомленнями PubSub.
- Ознайомитеся з Dataflow.
- Розглянете хмарні рішення Hadoop від компанії Google: DataProc та DataProc Batches.
Реєстрація