Курс для тих, хто хоче навести лад в архітектурі даних та опанувати ключові інструменти дата-інженера на практиці.
Олена Головата
BI Engineer в AWS CIAT
Мала досвід роботи в
Microsoft, Amazon, Meta
щоб поринути у процес обробки даних, опанувати ключові інструменти, серед яких — Apache Airflow, Apache Hadoop, Apache Spark, та змінити професію на Big Data Engineer.
щоб не просто аналізувати дані, а й вибудовувати процеси завантаження/вивантаження, проєктувати сховища, налаштовувати автоматичне оновлення дата-пайплайнів та спростити собі роботу.
щоб впорядкувати дані, навчитися проєктувати зрозумілу архітектуру під завдання бізнесу та оперативно обробляти до 1 Пбайт даних.
Існує міф, що дата-інженер робить усю «брудну» роботу з даними: «витягує» їх зі сховищ, сортує «сирі» дані, а потім передає аналітикам і дата-саєнтистам, які творять із ними справжню магію. Але магії не буде, якщо підготувати дані неправильно.
На цьому курсі ми почнемо з базових виразів на Python і SQL, які допоможуть знаходити коректні дані. Далі навчимося налаштовувати ETL-процеси й передавати дані між системами, запускатимемо автоматичне оновлення дата-пайплайнів і будуватимемо Big Data Platforms, які здатні масштабуватися. У результаті ви опануєте 6 ключових інструментів інженера даних і передаватимете коректні показники для ухвалення ефективних бізнес-рішень.
Ви розберете наявні рішення обробки Big Data на частини, розглянете та повторите кожну. В результаті дізнаєтеся, що брати до уваги під час розробки та як не панікувати, коли вимоги до системи змінюються.
Розберетеся в інтерфейсі та навчитеся користуватися Hadoop, Apache Airflow, Apache Spark, SparkSQL, HDFS.
Побудуєте власну Big Data Platform, яка здатна масштабуватися, і додасте кейс у своє портфоліо.
Відкриєте новий підхід у роботі з Big Data, отримаєте рекомендації з працевлаштування та почнете шлях у Data Engineering.