18 занятий
27 часов контента
Курс для тех, кто хочет навести порядок в архитектуре данных и освоить ключевые инструменты data engineer на практике.
Бонусом вы получите подписку на среду разработки Pycharm от JetBrains на 4 месяца и сэкономите $ 100.
Изучите весь процесс обработки данных, освоите 6 ключевых инструментов инженера данных и научитесь проектировать Big Data Platforms, которые способны масштабироваться.
Научитесь не просто анализировать данные, но и выстраивать процессы загрузки/выгрузки, проектировать хранилища, настраивать автоматическое обновление дата-пайплайнов, чем упростите себе работу.
Наведете порядок в данных, научитесь проектировать понятную архитектуру под задачи бизнеса и сможете оперативно обрабатывать 1 Пбайт данных.

Ключевая задача инженера данных ― строить системы обработки big data. Благодаря этому бизнес получает корректные данные и может принимать эффективные решения. Чтобы строить Big Data Platforms, которые способны масштабироваться, необходимо научиться упрощать, загружать и обрабатывать данные.
За 18 видеоуроков вы детально изучите все этапы обработки данных, будете строить ETL-системы и хранилища, настраивать автоматическое обновление дата-пайплайнов и успешно обрабатывать 1 Пбайт данных.
Вы разберете существующие решения обработки big data на части, рассмотрите и повторите каждую делать. В результате ― узнаете, что учитывать при разработке и как не паниковать, если требования к системе меняются.
Разберетесь в интерфейсе и научитесь пользоваться Hadoop, Apache Airflow, Apache Spark, SparkSQL, HDFS, MapReduce. Получите бесплатный доступ к среде разработки Pycharm от JetBrains на 4 месяца.
Построите собственную Big Data Platform, которая способна масштабироваться, и добавите кейс в свое портфолио.
Откроете новый подход в работе с big data и начнете путь в Data Engineering.

Узнайте всё, что вы хотели о профессии Data Engineer: цели, направления, задачи, обязанности и функция в команде. Сравните Data Engineer vs Big Data Engineer. Ознакомьтесь с технологиями, с которыми вы будете работать во время курса. Поймите, какие задачи решает конкретная Big Data технология.
Научитесь работать с разными структурами данных: string, list, tuple, set, dictionary. Начните загружать данные из внешних источников с помощью Python. Узнайте специфику работы с модулями Python: import и relative import модулей.
Узнайте, для чего используется SQL в Big Data. Научитесь объединять наборы данных при помощи SQL: JOIN, UNION, EXCEPT. Начните использовать SQL для аналитических запросов: аналитические функции, группирование данных, оконные функции. Поймите, как писать быстро-выполняющийся SQL.
Выявите различия между OLTP и OLAP системами. Поймите техническую реализацию системы управления баз данных, предназначенных для аналитики. Научитесь описывать структуру базы данных при помощи ER-модели для ее будущего конструирования (Crow’s foot notation).
Узнайте, какое назначение хранилищ данных и какие существуют подходы к их проектированию. Научитесь проектировать (строить) хранилища данных. Освойте навык “представление данных в виде витрин”. Разберите примеры существующих хранилищ данных.
Спроектируйте ETL решение. Поймите, как передавать данные между системами. Научитесь извлекать данные из внешних источников, трансформировать и очищать.
Научитесь создавать, запускать и мониторить ETL при помощи Apache Airflow. Начните описывать ETL процессы, используя Directed Acyclic Graph. Напишите свой оператор Airflow для доступа к API. Подключитесь к внешним источникам данных с помощью Apache Airflow.
Разберитесь с понятием распределенных систем и вычислений. Узнайте, какие задачи они решают и какие готовые решения уже существуют. Выявите отличия распределенных систем от обычных, разберите их преимущества и недостатки. Поймите, что означают свойства распределенных систем и ограничения распределенных систем в САР-теореме для вашей работы. Узнайте, на что стоит обратить внимание при построении распределенных систем и чем можно пожертвовать при решении конкретной задачи.
Научитесь пользоваться экосистемой Hadoop. Узнайте, в чем предназначение каждой технологии в рамках экосистемы Hadoop. Изучите альтернативы Hadoop. Начните использовать Hadoop Distributed File System.
Научитесь работать с распределенной файловой системой Hadoop. Ознакомьтесь со спектром решаемых задач. Изучите внутреннюю архитектуру HDFS и особенности её реализации. Научитесь управлять файлами, загружать, выгружать данные, администрировать кластера при помощи HDFS.
Узнайте три поколения BigData архитектуры и зачем они нужны. Разберитесь, какие технологии имеют и какие проблемы решают разные поколения архитектур.
Начните обзор технологии Apache Spark, выявите её отличие от MapReduce. Поймите, почему Apache Spark флагманская технология в мире BigData. Узнайте, какие задачи решает Apache Spark. Используйте технологию Apache Spark для организации больших данных.
Начните знакомство со SparkSQL — одним из синтаксисов Apache Spark. Научитесь загружать данные в Spark. Изучите работу Spark со внешними источниками данных. Совершите трансформации над структурированными данными при помощи SparkSQL.
Начните выгрузку данных из Spark. Научитесь проводить аналитику на структурированных данных в Spark.
Поймите, как написать эффективный код и ускорить обработку больших данных в Apache Spark. Научитесь выявлять основные проблемы производительности Spark, устраните их. Организуйте данные в кластере Apache Spark.
Поймите, чем отличается обработка потоковых данных от статичных. Научитесь обрабатывать потоки данных с помощью Spark Streaming. Разберите пример программы по анализу потоковых данных.
Объедините все полученные знания. Создайте data platform. Сделайте обзор полного цикла подготовки и реализации проекта. Начните подготовку к курсовому проекту.
Получите тему курсового проекта. Ознакомьтесь с форматом работы. Выполните ряд обязательных требований для реализации проекта. Успешно защитите его.