Научитесь обрабатывать большие данные и постройте собственную Data Platform, способную масштабироваться
Илья Хороших
Data Platform Engineer в Lyft
former EPAM, Luxoft

которые знают Python, работают с Git, хотят разобраться в архитектуре больших данных, оптимизировать ETL-процессы и SQL-запросы к БД и перейти в Data Engineering
которые знают SQL, работают с небольшими объемами данных и хотят расширить стек для работы именно с Big Data, сократить время на подготовку данных к анализу и автоматизировать этот процесс
которые уже работают в сфере инженерии данных, но хотят углубить знания, автоматизировать процессы для повышения эффективности и строить надежные, масштабируемые Big Data проекты
- сформируете целостное видение архитектуры данных и сможете декомпонировать процесс обработки Big Data
- освоите современные подходы и инструменты работы с данными: Hadoop, Apache Airflow, Apache Spark, SparkSQL, Docker, AWS
- научитесь извлекать данные из различных источников, строить ETL/ELT-процессы и настраивать инфраструктуры для их хранения и обработки
- сможете предлагать технические решения, выдерживающие большие объемы данных
- создадите собственную дата-платформу, способную к масштабированию
Рассмотрите архитектуру современных распределенных систем и изучите готовые решения для дата-инженеров, освоите инструменты для распределенного хранения файлов и вычислений.
Освоите ключевые инструменты Data Engineer, в частности Apache Airflow для разработки, планирования и мониторинга, Hadoop для обработки и хранения больших данных, Docker для работы с контейнерами, Amazon S3 для взаимодействия с данными в облаке.
На практике научитесь развертывать Big Data кластеры локально и в облачной среде, разработаете пайплайн для анализа в AWS или локально, закрепите все приобретенные навыки и получите фидбек от практика.

