«Антон разложил все по полочкам и дал практические советы»

«Антон разложил все по полочкам и дал практические советы»

Отзывы студентов первого потока курса Data Engineering.

На курсе Data Engineering студенты разбираются, как обрабатывать данные и строить собственные Data Platform, которые могут масштабироваться.

Мы узнали у выпускников, с какими целями они пришли и что получили на занятиях.

Игорь Никольский, Data Scientist, WOG

Бэкграунд и цель

Несколько лет я совмещал две роли — проектное управление и дата-аналитику. Они боролись между собой, и аналитика победила. Я решил, что нужно «подтянуть матчасть» — пройти курсы. В основном таргетировал аналитические направления: машинное обучение, линейная алгебра для data science. Искал, что еще пройти, и мне попались курсы robot_dreams. Обратил внимание на Data Engineering, но сомневался — это было не совсем то, что я искал. Но было сильно любопытно и интересно. Пообщался с менеджером и пришел к выводу, что аналитику важно понимать, какие ключевые принципы стоят за обработкой данных, какие инструменты используются. Такие знания могут выделить кандидата на рынке труда. С этой мотивацией я и пришел на курс.

Как проходило обучение и что дал курс

У меня не было цели стать дата-инженером, я хотел расширить кругозор. Но с 3–4 недели курса понял, что это направление мне действительно интересно. Оказалось, что дата-инжиниринг — это абсолютно не сложно, что эти технологии могут помочь автоматизировать мою рутинную работу.

Лекции были подкреплены домашними заданиями, которые были понятны. Сложности возникали при работе с виртуальными машинами, поднятии баз данных. Но после прохождения курса даже виртуальная машина, с которой я долго спорил, стала для меня инструментом, с помощью которого я могу безопасно пощупать новые для себя технологии. Сложность вылилась во что-то позитивное.

Сейчас я использую Apache Airflow как инструмент для организации рутинных процессов. Он легко поднимается на нашей инфраструктуре, прост в использовании, замечательно работает как планировщик и структуризатор проектов.

Комментарий лектора курса Антона Бондаря:

«Виртуальная машина — это виртуальный компьютер, который запускается на физическом компьютере, но ничем от него не отличается. ВМ — это не программа которая запускается на компьютере, у ВМ есть выделенные ресурсы ЦП, память, диски для хранения файлов и доступ в сеть под своим IP. Все это возможно за счет технологии аппаратной виртуализации.

Чтобы на курсе студенты могли использовать BigData-технологии (Hadoop, Spark, Greenplum, Airflow) и при этом не тратили время на установку и не засоряли свои компьютеры лишними программами, мы предоставляем виртуальную машину со всем необходимым».

Николай Приходько, заместитель начальника управления экономического анализа и управленческой отчетности, АБ «Укргазбанк»

Бэкграунд и цель

Я являюсь конечным пользователем тех данных, которые должен готовить дата-инженер. Но мне не всегда хватает чистоты данных. Я пришел на курс, чтобы понимать, как они готовятся, чистятся и как попадают в BI.

Как проходило обучение и что дал курс

Мне удалось освоить PySpark. До курса я не знал, в чем его эффективность работы с Big Data. Надеюсь, что буду совершенствовать знания, потому что работаю как раз с большими объемами данных.

Также я познакомился с бинарными форматами: Apache Parquet и Apache Avro. Узнал лайфхаки работы дата-инженера с Python, которые делают код более эффективным.

Я работаю в банке, где сотрудники могут предлагать проекты. Раньше мои предложения по улучшению данных сводились к тому, что я жаловался на их качество. Сейчас я могу компетентно инициировать подготовку данных. Уже удалось запустить пару проектов, которые облегчат жизнь мне как BI-разработчику и улучшат бизнес-процессы банка.

После курса мне стало понятно, что происходит в «ящике», который готовит данные: как они приходят из первичной системы, как обрабатываются и поступают для анализа. Антон разложил все по полочкам и дал практические советы, которые не всегда найдешь в учебниках. Это сократило время на освоение материала.

Комментарий лектора курса Антона Бондаря:

«Самое сложное для студентов — сформировать правильную картину потоков обработки данных. На курсе я объясняю на примерах, почему необходим тот или иной процесс».

Евгений Вагин, Project Lead, Samsung

Бэкграунд и цель

Я в разработке около 10 лет. Последние 8 — в Samsung. Занимаюсь machine learning в области компьютерного зрения.

Курс выбрал, потому что захотел попробовать что-то новое для себя. Еще в университете я занимался SQL — самые базовые навыки и знания у меня остались.

Как проходило обучение и что дал курс

Мне было непросто вписываться в дедлайны, потому что есть насыщенная работа, которой нужно уделять много времени. Но команда robot_dreams всегда шла мне навстречу.

Программа курса подразумевает изучение большого спектра технологий. Мне была знакома только система управления базами данных PostgreSQL. Все остальное, от Apache Airflow до Spark, было новым. Попробовал эти инструменты и не разочаровался.

Помните, что, если хотите в чем-то разобраться, нужно прикладывать собственные усилия. Нам на курсе давали много полезных ссылок, где информация была в удобной форме.

​​Считаю, что вебинары — самая правильная форма занятий. Классно, что можно было задать преподавателю вопросы, увидеть его живую реакцию, услышать ответы. Удобно было общаться в Slack по вопросам, которые нужно было оперативно решить — допустим, при выполнении домашних заданий. Можно было написать Антону, и он приходил на помощь.

По итогам курса у меня получилось не только расширить кругозор, но и увидеть перспективу применения знаний в работе. Я уже внедрил Apache Airflow для наших дата-пайплайнов. Это помогает команде улучшать процессы.

Комментарий лектора курса Антона Бондаря:

«Курс подойдет всем, кому нужно организовывать данные для извлечения из них дополнительной ценности».

Ещё статьи
Инструкция от Product Analyst Lead в SQUAD.
История, архитектура и основы обучения.