Data Engineering — онлайн-курс про те, як отримувати дані з різних джерел та будувати системи обробки Big Data | robot_dreams

Побудуйте власну Big Data Platform

Data Engineering

Михайло Лазорик Data Engineer
у Grid Dynamics

Курс підійде:

  • Software/SQL/ETL Developer

    щоби поринути у процес обробки даних, опанувати ключові інструменти, серед яких — Apache Airflow, Apache Hadoop, Apache Spark, та змінити професію на Big Data Engineer.

  • Data Analyst / Data Scientist

    щоби вибудовувати процеси завантаження/вивантаження даних, проєктувати сховища, налаштовувати автоматичне оновлення пайплайнів та оптимізувати роботу.

  • Data Engineer (beginner)

    щоби впорядкувати дані, навчитися проєктувати зрозумілу архітектуру під завдання бізнесу та оперативно обробляти до 1 Пбайта даних.

Про курс

  • Існує міф, що дата-інженер робить усю «брудну» роботу з даними — «витягує» їх зі сховищ, сортує «сирі» дані, а потім передає аналітикам і дата-саєнтистам, які творять із ними справжню магію. Але магії не буде, якщо підготувати дані неправильно.

  • На курсі ми одразу почнемо шукати коректні дані в масивах, застосовуючи знання Python та SQL. Далі ― навчимося налаштовувати ETL-процеси й передавати анформацію між системами, запускатимемо автоматичне оновлення дата-пайплайнів і будуватимемо Big Data Platforms, які здатні масштабуватися.

  • У результаті ви опануєте 6 ключових інструментів інженера даних і передаватимете коректні показники для ухвалення ефективних бізнес-рішень.

До програми курсу входять:

  1. ТЕОРІЯ

    Розберете наявні рішення обробки Big Data, дізнаєтеся, на що зважати під час розробки системи та як не панікувати, якщо вимоги змінюються.

  2. ІНСТРУМЕНТИ

    Розберетеся в інтерфейсі та навчитеся користуватися Hadoop, Apache Airflow, Apache Spark, SparkSQL, HDFS.

  3. ПРОЄКТ

    Побудуєте власну Big Data Platform, яка здатна масштабуватися, і додасте кейс у своє портфоліо.

  4. КАР’ЄРА

    Відкриєте новий підхід у роботі з Big Data, отримаєте рекомендації з працевлаштування та почнете шлях у Data Engineering.

Лектор:

Михайло
Лазорик

  • Data Engineer у Grid Dynamics
  • має 6+ років досвіду роботи з Big Data та 2+ роки досвіду викладання
  • починав кар’єру як Python-розробник у компанії Ericsson
  • має досвід роботи зі світовими клієнтами, як-от PepsiCO та Jabil
  • працював з великими обсягами даних, відповідав за побудову ETL-процесів
  • запроваджував рішення у сферах маркетингу, логістики й телекомунікації

ПРОГРАМА

  • 01

    28.03.2024 / четвер

    Вступ до Data Engineering

    • З’ясуєте все, що хотіли знати про професію Data Engineer: цілі, напрямки, завдання, обов’язки та функції у команді.
    • Дізнаєтеся історію інженерії даних і Big Data.
    • Розберете відмінності між Data Engineer та Big Data Engineer.
    • Отримаєте огляд інструментів для роботи з Big Data: бази даних, Hadoop Stack, брокери повідомлень, хмарні рішення.
    • Ознайомитеся з технологіями, з якими працюватимете під час курсу.
  • 02

    01.04.2024 / понеділок

    Python для Data Engineering

    • Навчитеся правильно будувати сервіс на Python для обробки даних.
    • Дізнаєтесь, які бувають джерела даних.
    • Навчитеся правильно працювати з API джерел даних.
    • Навчитеся працювати в Jupyter Notebook та розберетеся з бібліотекою Pandas.
  • 03

    04.04.2024 / четвер

    SQL для Data Engineering

    • Дізнаєтеся, для чого використовують SQL у Big Data.
    • Навчитеся об’єднувати набори даних за допомогою SQL: JOIN, UNION, EXCEPT.
    • Почнете використовувати SQL для аналітичних запитів: аналітичні функції, групування даних, віконні функції.
    • Зрозумієте, як написати SQL-запит оптимально.
  • 04

    08.04.2024 / понеділок

    Аналітичні бази даних

    • Виявите відмінність між системами OLTP та OLAP.
    • Зрозумієте технічну реалізацію баз даних для OLTP та OLAP на прикладі PostgreSQL та Google Bigquery.
    • Дізнаєтеся, як правильно писати SQL-запити для транзакційних та аналітичних баз даних, і розберете найпоширеніші помилки під час побудови SQL-запиту.
  • 05

    11.04.2024 / четвер

    Проєктування сховищ даних

    • Дізнаєтеся про призначення сховищ даних та підходи до їх проєктування.
    • Дізнаєтеся, що таке Data Warehouse (DWH), Data Lake (DL) та Data Swamp (DS).
    • Зрозумієте, як проєктувати аналітичний шар DWH.
    • Розглянете підходи до проєктування Кімбала та Інмана.
    • Дізнаєтеся, що таке вітрини даних, і навчитеся подавати дані у вигляді вітрин.
    • Розберете приклади наявних сховищ даних.
  • 06

    15.04.2024 / понеділок

    Передача даних між системами: ETL- та ELT-процеси

    • Дізнаєтеся, чому ETL ― найпопулярніший спосіб забезпечення роботи сховищ даних.
    • Зрозумієте, як дані пересилаються між системами.
    • Навчитеся отримувати дані із зовнішніх джерел, трансформувати та очищати їх.
    • Навчитеся створювати, запускати та моніторити ETL-процеси.
    • Розберете особливості різних форматів файлів: CSV, JSON, JSONLine, Avro, Parquet, ORC.
  • 07

    18.04.2024 / четвер

    Оркестрація процесів обробки даних в Apache Airflow

    • Отримаєте детальний огляд Apache Airflow для керування процесами ETL.
    • Вивчите Directed Acyclic Graph (спрямований ациклічний граф) для опису пайплайнів.
    • Переглянете найпопулярніші оператори в Apache Airflow і навчитеся писати свої.
    • Дізнаєтеся, що таке хуки, провайдери та змінні.
    • Отримаєте best practices для роботи з Apache Airflow.
  • 08

    22.04.2024 / понеділок

    Розподілені обчислення

    • Розберетеся з поняттям розподілених систем та обчислень.
    • Дізнаєтесь, які завдання вони розв’язують та які готові рішення вже є.
    • Виявите відмінності розподілених систем від звичайних, розглянете їхні переваги та недоліки.
    • Розберетеся в САР-теоремі.
    • Дізнаєтеся, на що варто звернути увагу впродовж побудови розподілених систем і чим можна пожертвувати під час розв’язання конкретного завдання.
  • 09

    25.04.2024 / четвер

    Екосистема Hadoop для розподіленої роботи з файлами

    • Навчитеся користуватися екосистемою Hadoop.
    • Дізнаєтесь, у чому призначення кожної технології в межах екосистеми Hadoop.
    • Вивчите альтернативи Hadoop.
    • Почнете використовувати Hadoop Distributed File System.
  • 10

    29.04.2024 / понеділок

    Розподілені файлові системи: HDFS, S3 та GCS

    • Вивчите внутрішню архітектуру HDFS та особливості її реалізації.
    • Навчитеся працювати з HDFS: керувати файлами, завантажувати та вивантажувати дані.
    • Навчитеся працювати з Amazon S3 та Google Cloud Storage.
  • 11

    02.05.2024 / четвер

    BigData-архітектури

    • Ознайомитеся з трьома поколіннями архітектури Big Data та дізнаєтеся, навіщо вони потрібні.
    • Розберетеся, які технології мають та які проблеми розв’язують різні покоління архітектур.
  • 12

    06.04.2024 / понеділок

    Розподілені обчислення за допомогою Apache Spark

    • Отримаєте огляд технології Apache Spark і дізнаєтесь, які завдання вона розв’язує. Виявите її відмінності від MapReduce.
    • Зрозумієте, чому Apache Spark стала флагманською технологією у світі BigData.
    • Навчитеся використовувати Apache Spark для створення великих даних.
    • Вивчите варіанти використання Apache Spark: способи організації даних RDD, Data Frame та Dataset ― і дізнаєтеся, у яких випадках та з якими даними використовують кожен із цих підходів.
  • 13

    09.05.2024 / четвер

    Робота зі структурованими даними за допомогою SparkSQL. Part 1

    • Почнете знайомство зі SparkSQL ― одним із синтаксисів Apache Spark.
    • Навчитеся завантажувати дані в Spark.
    • Вивчите роботу Spark із зовнішніми джерелами даних.
    • Розберетеся в базових операціях Spark DataFrame для трансформації структурованих даних.
  • 14

    13.05.2024 / понеділок

    Робота зі структурованими даними за допомогою SparkSQL. Part 2

    • Дізнаєтеся, як вивантажувати дані зі Spark.
    • Навчитеся проводити аналітику на структурованих даних у Spark.
  • 15

    16.05.2024 / четвер

    Оптимізація виконання завдань в Apache Spark

    • Зрозумієте, як написати ефективний код та прискорити обробку великих даних в Apache Spark.
    • Навчитеся виявляти основні проблеми продуктивності Spark, усунете їх.
    • Організуєте дані в кластері Apache Spark.
  • 16

    20.05.2024 / понеділок

    Потоки даних Apache Spark

    • Зрозумієте, чим відрізняється обробка потокових даних від статичних.
    • Навчитеся обробляти потоки даних за допомогою Spark Streaming.
    • Розберете приклад програми аналізу потокових даних.
  • 17

    23.05.2024 / четвер

    Огляд інструментів Google Cloud для інженерії даних. Part 1

    • Ознайомитеся з BigQuery ― аналітичною розподіленою базою для сотень Пбайт даних.
    • Отримаєте огляд професійних інструментів аналітики та візуалізації — Data Studio та Looker.
    • Дізнаєтеся, як працювати з Google Storage (GCS).
    • Розберетеся в контейнерних середовищах виконання: GKE та сучасні безопераційні середовища Cloud Functions та Cloud Run.
  • 18

    27.05.2024 / понеділок

    Огляд інструментів Google Cloud для інженерії даних. Part 2

    • Отримаєте огляд Google Composer.
    • Дізнаєтеся, як працювати з децентралізованою безсерверною системою обміну повідомленнями PubSub.
    • Ознайомитеся із Dataflow.
    • Розглянете хмарні рішення Hadoop від компанії Google: DataProc та DataProc Batches.

Реєстрація

 

 
 
 
Реєструючись, ви погоджуєтеся з умовами договору-оферти та політикою конфіденційності.