Курс подойдет:
-
Software/SQL/ETL Developer чтобы погрузиться в процесс обработки данных, овладеть ключевыми инструментами, среди которых — Apache Airflow, Apache Hadoop, Apache Spark, и сменить профессию на Big Data Engineer.
-
Data Analyst / Data Scientist чтобы выстраивать процессы загрузки/выгрузки данных, проектировать хранилища, настраивать автоматическое обновление пайплайнов и оптимизировать работу.
-
Data Engineer (beginner) чтобы упорядочить данные, научиться проектировать понятную архитектуру под задачи бизнеса и оперативно обрабатывать до 1 Пбайт данных.
О курсе
-
Существует миф, что дата-инженер делает всю «грязную» работу с данными — «вытаскивает» их из хранилищ, сортирует «сырые» данные, а затем передает аналитикам и дата-саентистам, творящим с ними настоящую магию. Но магии не будет, если подготовить данные неправильно.
-
На курсе мы сразу начнем искать корректные данные в массивах, используя знания Python и SQL. Далее ― научимся настраивать ETL-процессы и передавать информацию между системами, будем запускать автоматическое обновление дата-пайплайнов и строить Big Data Platforms, которые способны масштабироваться.
-
В результате вы освоите 6 ключевых инструментов инженера данных и будете передавать корректные показатели для принятия эффективных бизнес-решений.
В программу курса входят:
-
ТЕОРИЯ Разберете существующие решения обработки Big Data, узнаете, что учитывать при разработке системы и как не паниковать, если требования изменяются.
-
ИНСТРУМЕНТЫ Разберетесь в интерфейсе и научитесь воспользоваться Hadoop, Apache Airflow, Apache Spark, SparkSQL, HDFS.
-
ПРОЕКТ Построите собственную Big Data Platform, которая способна масштабироваться, и добавите кейс в свое портфолио.
-
КАРЬЕРА Откроете новый подход в работе с Big Data, получите рекомендации по трудоустройству и начнете путь в Data Engineering.
Лектор:
Михаил
Лазорик
- Data Engineer в Grid Dynamics
- имеет 6+ лет опыта работы с Big Data и 2+ года опыта преподавания
- начинал карьеру как Python-разработчик в компании Ericsson
- имеет опыт работы с мировыми клиентами, например, PepsiCO и Jabil
- работал с большими объемами данных, отвечал за построение ETL-процессов
- внедрял решения в сфере маркетинга, логистики и телекоммуникации
ПРОГРАММА
-
01
28.03.2024 / четверг
Введение в Data Engineering
- Выясните все, что хотели знать о профессии Data Engineer: цели, направления, задачи, обязанности и функции в команде.
- Узнаете историю инженерии данных и Big Data.
- Разберете отличия между Data Engineer и Big Data Engineer.
- Получите обзор инструментов для работы с Big Data: базы данных, Hadoop Stack, брокеры сообщений, облачные решения.
- Ознакомитесь с технологиями, с которыми будете работать во время курса.
-
02
01.04.2024 / понедельник
Python для Data Engineering
- Научитесь правильно строить сервис на Python для обработки данных.
- Узнаете, какие источники данных бывают.
- Научитесь правильно работать с API источников данных.
- Научитесь работать в Jupyter Notebook и разберетесь с библиотекой Pandas.
-
03
04.04.2024 / четверг
SQL для Data Engineering
- Узнаете, для чего используется SQL в Big Data.
- Научитесь объединять наборы данных с помощью SQL: JOIN, UNION, EXCEPT.
- Начнете использовать SQL для аналитических запросов: аналитические функции, группирование данных, оконные функции.
- Поймете, как написать SQL-запрос оптимально.
-
04
08.04.2024 / понедельник
Аналитические базы данных
- Выявите различия между системами OLTP и OLAP.
- Поймете техническую реализацию баз данных для OLTP и OLAP на примере PostgreSQL и Google Bigquery.
- Узнаете, как правильно писать SQL-запросы для транзакционных и аналитических баз данных, и разберете самые распространенные ошибки при построении SQL-запроса.
-
05
11.04.2024 / четверг
Проектирование хранилищ данных
- Узнаете о назначении хранилищ данных и подходах к их проектированию.
- Узнаете, что такое Data Warehouse (DWH), Data Lake (DL) и Data Swamp (DS).
- Поймете, как можно проектировать аналитический слой DWH.
- Рассмотрите подходы к проектированию Кимбала и Инмана.
- Узнаете, что такое витрины данных, и научитесь представлять данные в виде витрин.
- Разберете примеры имеющихся хранилищ данных.
-
06
15.04.2024 / понедельник
Передача данных между системами: ETL- и ELT-процессы
- Узнаете, почему ETL — самый популярный способ обеспечения работы хранилищ данных.
- Поймете, как данные пересылаются между системами.
- Научитесь получать данные из внешних источников, трансформировать и очищать их.
- Научитесь создавать, запускать и мониторить процессы ETL.
- Разберете особенности разных форматов файлов: CSV, JSON, JSONLine, Avro, Parquet, ORC.
-
07
18.04.2024 / четверг
Оркестрация процессов обработки данных в Apache Airflow
- Получите подробный обзор Apache Airflow для управления процессами ETL.
- Изучите Directed Acyclic Graph (направленный ациклический граф) для описания пайплайнов.
- Просмотрите самые популярные операторы в Apache Airflow и научитесь писать свои.
- Узнаете, что такое хуки, провайдеры и переменные.
- Получите best practices для работы с Apache Airflow.
-
08
22.04.2024 / понедельник
Распределенные вычисления
- Разберетесь с понятием распределенных систем и вычислений.
- Узнаете, какие задачи они решают и какие готовые решения уже есть.
- Выявите отличия распределенных систем от обычных, разберете их преимущества и недостатки.
- Разберетесь в САР-теореме.
- Узнаете, на что следует обратить внимание во время построения распределенных систем и чем можно пожертвовать при решении конкретной задачи.
-
09
25.04.2024 / четверг
Экосистема Hadoop для распределенной работы с файлами
- Научитесь пользоваться экосистемой Hadoop.
- Узнаете, в чем предназначение каждой технологии в рамках экосистемы Hadoop.
- Изучите альтернативы Hadoop.
- Начнете использовать Hadoop Distributed File System.
-
10
29.04.2024 / понедельник
Распределенные файловые системы: HDFS, S3 и GCS
- Изучите внутреннюю архитектуру HDFS и особенности ее реализации.
- Научитесь работать с HDFS: управлять файлами, загружать и скачивать данные.
- Научитесь работать с Amazon S3 и Google Cloud Storage.
-
11
02.05.2024 / четверг
BigData-архитектуры
- Ознакомитесь с тремя поколениями архитектуры Big Data и узнаете, зачем они нужны.
- Разберетесь, какие технологии имеют и какие проблемы решают разные поколения архитектур.
-
12
06.04.2024 / понедельник
Распределенные вычисления с помощью Apache Spark
- Получите обзор технологии Apache Spark и узнаете, какие задачи она решает. Выявите ее отличия от MapReduce.
- Поймете, почему Apache Spark стала флагманской технологией в мире BigData.
- Научитесь использовать Apache Spark для создания больших данных.
- Изучите варианты использования Apache Spark: способы организации данных RDD, Data Frame и Dataset ― и узнаете, в каких случаях и с какими данными используется каждый из этих подходов.
-
13
09.05.2024 / четверг
Работа со структурированными данными с помощью SparkSQL. Part 1
- Начнете знакомство со SparkSQL ― одним из синтаксисов Apache Spark.
- Научитесь скачивать данные в Spark.
- Изучите работу Spark с внешними источниками данных.
- Разберетесь в базовых операциях Spark DataFrame для трансформации структурированных данных.
-
14
13.05.2024 / понедельник
Работа со структурированными данными с помощью SparkSQL. Part 2
- Узнаете, как выгружать данные из Spark.
- Научитесь проводить аналитику на структурированных данных в Spark.
-
15
16.05.2024 / четверг
Оптимизация выполнения задач в Apache Spark
- Поймете, как написать эффективный код и ускорить обработку больших данных в Apache Spark.
- Научитесь выявлять основные проблемы производительности Spark, устраните их.
- Организуете данные в кластере Apache Spark.
-
16
20.05.2024 / понедельник
Потоки данных Apache Spark
- Поймете, чем отличается обработка поточных данных от статических.
- Научитесь обрабатывать потоки данных с помощью Spark Streaming.
- Разберете пример программы анализа поточных данных.
-
17
23.05.2024 / четверг
Обзор инструментов Google Cloud для инженерии данных. Part 1
- Ознакомитесь с BigQuery — аналитической распределенной базой для сотен Пбайт данных.
- Получите обзор профессиональных инструментов аналитики и визуализации — Data Studio и Looker.
- Узнаете, как работать с Google Storage (GCS).
- Разберетесь в контейнерных средах выполнения: GKE и современные безоперационные среды Cloud Functions и Cloud Run.
-
18
27.05.2024 / понедельник
Обзор инструментов Google Cloud для инженерии данных. Part 2
- Получите обзор Google Composer.
- Узнаете, как работать с децентрализованной бессерверной системой обмена сообщениями PubSub.
- Ознакомитесь с Dataflow.
- Рассмотрите облачные решения Hadoop от Google: DataProc и DataProc Batches.
Регистрация