r_d

Data Engineering

Полноценный онлайн-курс о том, как правильно извлекать данные из разных источников и строить системы обработки Big Data. Если вы хотите научиться упрощать, обрабатывать и загружать данные в data warehouse — скрольте landing page вниз, чтобы ознакомиться с подробной информацией о курсе.
О курсе

Существует гипотеза, что навыки работы с большими массивами данных позволяют предоставлять бизнесу самые корректные сведения. Для успешной обработки более 1‑го Пбайта данных и настройки инфраструктуры для загрузки, хранения и конвертации Big Data, потратьте 27 часов, чтобы научится строить ETL-системы и проектировать хранилища данных.

На этом курсе вы детально изучите все этапы обработки данных и разберете необходимые инструменты для работы с ними: Hadoop, Apache Airflow, Apache Spark, SparkSQL, HDFS и MapReduce. Также вы научитесь предлагать решения, которые способны выдержать большие данные, поймете, что учитывать при разработке системы и что делать, если требования к ней часто меняются.

Курс будет полезен как java & python, sql & etl разработчикам, так и начинающим дата инженерам.

17 июня — 26 августа
записаться
лектор
Антон Бондарь

Big Data Consultant в Cognizant

  • занимался построением data platform в AVI-SPL и работал над технологией прогнозирования отказов техники на основе больших данных
  • работал над выгрузкой, проверкой и индексацией big data в DXC Automotive и был частью команды Ingestion, которая занималась подготовкой данных для платформы сбора и обработки показателей автопилотов
  • консультирует компании из списка Fortune 500
  • имеет более 6 лет опыта работы с big data
программа
1
занятие 17.06
Введение в Data Engineering
Узнайте всё, что вы хотели о профессии Data Engineer: цели, направления, задачи, обязанности и функция в команде. Сравните Data Engineer vs Big Data Engineer. Ознакомьтесь с технологиями, с которыми вы будете работать во время курса. Поймите, какие задачи решает конкретная Big Data технология.
2
занятие 22.06
Python для Data Engineering
Научитесь работать с разными структурами данных: string, list, tuple, set, dictionary. Начните загружать данные из внешних источников с помощью Python. Узнайте специфику работы с модулями Python: import и relative import модулей.
3
занятие 24.06
SQL для Data Engineering
Узнайте, для чего используется SQL в Big Data. Научитесь объединять наборы данных при помощи SQL: JOIN, UNION, EXCEPT. Начните использовать SQL для аналитических запросов: аналитические функции, группирование данных, оконные функции. Поймите, как писать быстро-выполняющийся SQL.
4
занятие 29.06
Аналитические базы данных
Выявите различия между OLTP и OLAP системами. Поймите техническую реализацию системы управления баз данных, предназначенных для аналитики. Научитесь описывать структуру базы данных при помощи ER-модели для ее будущего конструирования (Crow’s foot notation).
5
занятие 01.07
Проектирование хранилищ данных
Узнайте, какое назначение хранилищ данных и какие существуют подходы к их проектированию. Научитесь проектировать (строить) хранилища данных. Освойте навык “представление данных в виде витрин”. Разберите примеры существующих хранилищ данных.
6
занятие 06.07
Передача данных между системами. Часть 1
Спроектируйте ETL решение. Поймите, как передавать данные между системами. Научитесь извлекать данные из внешних источников, трансформировать и очищать.
7
занятие 08.07
Передача данных между системами. Часть 2
Научитесь создавать, запускать и мониторить ETL при помощи Apache Airflow. Начните описывать ETL процессы, используя Directed Acyclic Graph. Напишите свой оператор Airflow для доступа к API. Подключитесь к внешним источникам данных с помощью Apache Airflow.
8
занятие 13.07
Распределенные вычисления. Лекция
Разберитесь с понятием распределенных систем и вычислений. Узнайте, какие задачи они решают и какие готовые решения уже существуют. Выявите отличия распределенных систем от обычных, разберите их преимущества и недостатки. Поймите, что означают свойства распределенных систем и ограничения распределенных систем в САР-теореме для вашей работы. Узнайте, на что стоит обратить внимание при построении распределенных систем и чем можно пожертвовать при решении конкретной задачи.
9
занятие 15.07
Экосистема Hadoop для распределенной работы с файлами
Научитесь пользоваться экосистемой Hadoop. Узнайте, в чем предназначение каждой технологии в рамках экосистемы Hadoop. Изучите альтернативы Hadoop. Начните использовать Hadoop Distributed File System.
10
занятие 20.07
Распределенная файловая система (HDFS)
Научитесь работать с распределенной файловой системой Hadoop. Ознакомьтесь со спектром решаемых задач. Изучите внутреннюю архитектуру HDFS и особенности её реализации. Научитесь управлять файлами, загружать, выгружать данные, администрировать кластера при помощи HDFS.
11
занятие 22.07
Распределенные вычисления (MapReduce)
Освойте технологию MapReduce для параллельных вычислений над большими наборами данных в компьютерных кластерах. Изучите задачи, которые решаются с помощью MapReduce. Научитесь анализировать большие объемы данных с использованием MapReduce.
12
занятие 27.07
Распределенные вычисления в оперативной памяти (Apache Spark)
Начните обзор технологии Apache Spark, выявите её отличие от MapReduce. Поймите, почему Apache Spark флагманская технология в мире BigData. Узнайте, какие задачи решает Apache Spark. Используйте технологию Apache Spark для организации больших данных.
13
занятие 29.07
Работа со структурированными данными при помощи SparkSQL. Часть 1
Начните знакомство со SparkSQL — одним из синтаксисов Apache Spark. Научитесь загружать данные в Spark. Изучите работу Spark со внешними источниками данных. Совершите трансформации над структурированными данными при помощи SparkSQL.
14
занятие 03.08
Работа со структурированными данными при помощи SparkSQL. Часть 2
Начните выгрузку данных из Spark. Научитесь проводить аналитику на структурированных данных в Spark.
15
занятие 12.08
Оптимизация выполнения задач в Apache Spark
Поймите, как написать эффективный код и ускорить обработку больших данных в Apache Spark. Научитесь выявлять основные проблемы производительности Spark, устраните их. Организуйте данные в кластере Apache Spark.
16
занятие 17.08
Потоки данных в Apache Spark
Поймите, чем отличается обработка потоковых данных от статичных. Научитесь обрабатывать потоки данных с помощью Spark Streaming. Разберите пример программы по анализу потоковых данных.
17
занятие 19.08
Подведение итогов
Объедините все полученные знания. Создайте data platform. Сделайте обзор полного цикла подготовки и реализации проекта. Начните подготовку к курсовому проекту.
18
занятие 26.08
Защита курсового проекта
Получите тему курсового проекта. Ознакомьтесь с форматом работы. Выполните ряд обязательных требований для реализации проекта. Успешно защитите его.
курс подойдет
нужно уметь
  • java & python developers
  • sql & etl developers
  • data engineer (beginner)
нужно уметь
  • Python:
    выполнять базовые операции
    работать с переменными и структурами данных
  • SQL:
    делать выборку и фильтрацию данных
    объединять наборы данных
После курса
1
data platform
сможете построить собственную функционирующую Data Platform, которая способна масштабироваться
2
инструменты
научитесь работать с инструментами: Hadoop, Apache Airflow, Apache Spark, SparkSQL, HDFS и MapReduce
3
системы
сможете строить ETL-системы и проектировать хранилища данных
регистрация

это обязательное поле

введите правильный адрес

это тоже обязательное поле

введите корректный номер телефона

и это тоже обязательное поле

 
 
 
 
Регистрируясь, вы соглашаетесь с условиями
договора-оферты и политикой конфиденциальности.
what if … :
1. … курс не понравился — можно вернуть деньги.
2. … не подходит график занятий — уточните, когда будет следующий поток.
3. … вы пропустили занятие — сохраняется запись.