Data Engineering — онлайн-курс о том, как извлекать данные из разных источников и строить системы обработки Big Data | robot_dreams

Постройте собственную Big Data Platform

Data Engineering

Михаил Лазорик Data Engineer
в Grid Dynamics

Курс подойдет:

  • Software/SQL/ETL Developer

    чтобы погрузиться в процесс обработки данных, овладеть ключевыми инструментами, среди которых — Apache Airflow, Apache Hadoop, Apache Spark, и сменить профессию на Big Data Engineer.

  • Data Analyst / Data Scientist

    чтобы выстраивать процессы загрузки/выгрузки данных, проектировать хранилища, настраивать автоматическое обновление пайплайнов и оптимизировать работу.

  • Data Engineer (beginner)

    чтобы упорядочить данные, научиться проектировать понятную архитектуру под задачи бизнеса и оперативно обрабатывать до 1 Пбайт данных.

О курсе

  • Существует миф, что дата-инженер делает всю «грязную» работу с данными — «вытаскивает» их из хранилищ, сортирует «сырые» данные, а затем передает аналитикам и дата-саентистам, творящим с ними настоящую магию. Но магии не будет, если подготовить данные неправильно.

  • На курсе мы сразу начнем искать корректные данные в массивах, используя знания Python и SQL. Далее ― научимся настраивать ETL-процессы и передавать информацию между системами, будем запускать автоматическое обновление дата-пайплайнов и строить Big Data Platforms, которые способны масштабироваться.

  • В результате вы освоите 6 ключевых инструментов инженера данных и будете передавать корректные показатели для принятия эффективных бизнес-решений.

В программу курса входят:

  1. ТЕОРИЯ

    Разберете существующие решения обработки Big Data, узнаете, что учитывать при разработке системы и как не паниковать, если требования изменяются.

  2. ИНСТРУМЕНТЫ

    Разберетесь в интерфейсе и научитесь воспользоваться Hadoop, Apache Airflow, Apache Spark, SparkSQL, HDFS.

  3. ПРОЕКТ

    Построите собственную Big Data Platform, которая способна масштабироваться, и добавите кейс в свое портфолио.

  4. КАРЬЕРА

    Откроете новый подход в работе с Big Data, получите рекомендации по трудоустройству и начнете путь в Data Engineering.

Лектор:

Михаил
Лазорик

  • Data Engineer в Grid Dynamics
  • имеет 6+ лет опыта работы с Big Data и 2+ года опыта преподавания
  • начинал карьеру как Python-разработчик в компании Ericsson
  • имеет опыт работы с мировыми клиентами, например, PepsiCO и Jabil
  • работал с большими объемами данных, отвечал за построение ETL-процессов
  • внедрял решения в сфере маркетинга, логистики и телекоммуникации

ПРОГРАММА

  • 01

    28.03.2024 / четверг

    Введение в Data Engineering

    • Выясните все, что хотели знать о профессии Data Engineer: цели, направления, задачи, обязанности и функции в команде.
    • Узнаете историю инженерии данных и Big Data.
    • Разберете отличия между Data Engineer и Big Data Engineer.
    • Получите обзор инструментов для работы с Big Data: базы данных, Hadoop Stack, брокеры сообщений, облачные решения.
    • Ознакомитесь с технологиями, с которыми будете работать во время курса.
  • 02

    01.04.2024 / понедельник

    Python для Data Engineering

    • Научитесь правильно строить сервис на Python для обработки данных.
    • Узнаете, какие источники данных бывают.
    • Научитесь правильно работать с API источников данных.
    • Научитесь работать в Jupyter Notebook и разберетесь с библиотекой Pandas.
  • 03

    04.04.2024 / четверг

    SQL для Data Engineering

    • Узнаете, для чего используется SQL в Big Data.
    • Научитесь объединять наборы данных с помощью SQL: JOIN, UNION, EXCEPT.
    • Начнете использовать SQL для аналитических запросов: аналитические функции, группирование данных, оконные функции.
    • Поймете, как написать SQL-запрос оптимально.
  • 04

    08.04.2024 / понедельник

    Аналитические базы данных

    • Выявите различия между системами OLTP и OLAP.
    • Поймете техническую реализацию баз данных для OLTP и OLAP на примере PostgreSQL и Google Bigquery.
    • Узнаете, как правильно писать SQL-запросы для транзакционных и аналитических баз данных, и разберете самые распространенные ошибки при построении SQL-запроса.
  • 05

    11.04.2024 / четверг

    Проектирование хранилищ данных

    • Узнаете о назначении хранилищ данных и подходах к их проектированию.
    • Узнаете, что такое Data Warehouse (DWH), Data Lake (DL) и Data Swamp (DS).
    • Поймете, как можно проектировать аналитический слой DWH.
    • Рассмотрите подходы к проектированию Кимбала и Инмана.
    • Узнаете, что такое витрины данных, и научитесь представлять данные в виде витрин.
    • Разберете примеры имеющихся хранилищ данных.
  • 06

    15.04.2024 / понедельник

    Передача данных между системами: ETL- и ELT-процессы

    • Узнаете, почему ETL — самый популярный способ обеспечения работы хранилищ данных.
    • Поймете, как данные пересылаются между системами.
    • Научитесь получать данные из внешних источников, трансформировать и очищать их.
    • Научитесь создавать, запускать и мониторить процессы ETL.
    • Разберете особенности разных форматов файлов: CSV, JSON, JSONLine, Avro, Parquet, ORC.
  • 07

    18.04.2024 / четверг

    Оркестрация процессов обработки данных в Apache Airflow

    • Получите подробный обзор Apache Airflow для управления процессами ETL.
    • Изучите Directed Acyclic Graph (направленный ациклический граф) для описания пайплайнов.
    • Просмотрите самые популярные операторы в Apache Airflow и научитесь писать свои.
    • Узнаете, что такое хуки, провайдеры и переменные.
    • Получите best practices для работы с Apache Airflow.
  • 08

    22.04.2024 / понедельник

    Распределенные вычисления

    • Разберетесь с понятием распределенных систем и вычислений.
    • Узнаете, какие задачи они решают и какие готовые решения уже есть.
    • Выявите отличия распределенных систем от обычных, разберете их преимущества и недостатки.
    • Разберетесь в САР-теореме.
    • Узнаете, на что следует обратить внимание во время построения распределенных систем и чем можно пожертвовать при решении конкретной задачи.
  • 09

    25.04.2024 / четверг

    Экосистема Hadoop для распределенной работы с файлами

    • Научитесь пользоваться экосистемой Hadoop.
    • Узнаете, в чем предназначение каждой технологии в рамках экосистемы Hadoop.
    • Изучите альтернативы Hadoop.
    • Начнете использовать Hadoop Distributed File System.
  • 10

    29.04.2024 / понедельник

    Распределенные файловые системы: HDFS, S3 и GCS

    • Изучите внутреннюю архитектуру HDFS и особенности ее реализации.
    • Научитесь работать с HDFS: управлять файлами, загружать и скачивать данные.
    • Научитесь работать с Amazon S3 и Google Cloud Storage.
  • 11

    02.05.2024 / четверг

    BigData-архитектуры

    • Ознакомитесь с тремя поколениями архитектуры Big Data и узнаете, зачем они нужны.
    • Разберетесь, какие технологии имеют и какие проблемы решают разные поколения архитектур.
  • 12

    06.04.2024 / понедельник

    Распределенные вычисления с помощью Apache Spark

    • Получите обзор технологии Apache Spark и узнаете, какие задачи она решает. Выявите ее отличия от MapReduce.
    • Поймете, почему Apache Spark стала флагманской технологией в мире BigData.
    • Научитесь использовать Apache Spark для создания больших данных.
    • Изучите варианты использования Apache Spark: способы организации данных RDD, Data Frame и Dataset ― и узнаете, в каких случаях и с какими данными используется каждый из этих подходов.
  • 13

    09.05.2024 / четверг

    Работа со структурированными данными с помощью SparkSQL. Part 1

    • Начнете знакомство со SparkSQL ― одним из синтаксисов Apache Spark.
    • Научитесь скачивать данные в Spark.
    • Изучите работу Spark с внешними источниками данных.
    • Разберетесь в базовых операциях Spark DataFrame для трансформации структурированных данных.
  • 14

    13.05.2024 / понедельник

    Работа со структурированными данными с помощью SparkSQL. Part 2

    • Узнаете, как выгружать данные из Spark.
    • Научитесь проводить аналитику на структурированных данных в Spark.
  • 15

    16.05.2024 / четверг

    Оптимизация выполнения задач в Apache Spark

    • Поймете, как написать эффективный код и ускорить обработку больших данных в Apache Spark.
    • Научитесь выявлять основные проблемы производительности Spark, устраните их.
    • Организуете данные в кластере Apache Spark.
  • 16

    20.05.2024 / понедельник

    Потоки данных Apache Spark

    • Поймете, чем отличается обработка поточных данных от статических.
    • Научитесь обрабатывать потоки данных с помощью Spark Streaming.
    • Разберете пример программы анализа поточных данных.
  • 17

    23.05.2024 / четверг

    Обзор инструментов Google Cloud для инженерии данных. Part 1

    • Ознакомитесь с BigQuery — аналитической распределенной базой для сотен Пбайт данных.
    • Получите обзор профессиональных инструментов аналитики и визуализации — Data Studio и Looker.
    • Узнаете, как работать с Google Storage (GCS).
    • Разберетесь в контейнерных средах выполнения: GKE и современные безоперационные среды Cloud Functions и Cloud Run.
  • 18

    27.05.2024 / понедельник

    Обзор инструментов Google Cloud для инженерии данных. Part 2

    • Получите обзор Google Composer.
    • Узнаете, как работать с децентрализованной бессерверной системой обмена сообщениями PubSub.
    • Ознакомитесь с Dataflow.
    • Рассмотрите облачные решения Hadoop от Google: DataProc и DataProc Batches.

Регистрация

 

 
 
 
Регистрируясь, вы соглашаетесь с условиями договора-оферты и политикой конфиденциальности.