Как освоить data science за полтора года
Из бизнес-аналитики — в аналитику данных.
Data science покоряется только упорным. Решив сменить профессию, вы должны не просто слушать курсы и ходить на митапы, но и практиковаться на тренировочных дата-сетах.
Елена Ивина, Junior Data Analyst в продуктовом стартапе Unicorn Nest, — о том, как променяла бизнес-анализ на работу с данными, и с чего начать, если хотите в data science.
Метролог, проджект, дата-аналитик
Я метролог по образованию. Нет, это не связано с метро или погодой. Метролог следит за точностью измерительных приборов. Математика, статистика, электроника, программирование, системы управления качеством — все это я изучала 10 лет. После нескольких лет работы по специальности стала администратором проектов в крупной производственной компании. Потом была проджект-менеджером в IT. Позже — бизнес-аналитиком. Постепенно минусы в работе стали перевешивать плюсы. Я поняла, что хочу, чтобы мне нравилась рабочая рутина.
Летом 2018 года я попала на митап по data science / machine learning. С удивлением открыла, что data science — это кросс-дисциплинарная сфера, в которой пересекаются computer science/IT, math/statistics и domain/business knowledge. Понятные и интересные мне направления, в которых нужно сочетать навыки аналитика и программиста.
После митапа я сама начала учить Python. Через полгода купила курс по Data Science от Мичиганского университета на Coursera. Еще полгода я читала статьи, выборочно изучала алгоритмы, просматривала требования к junior DS/ML engineer на сайтах поиска работы. Потом поняла, что мне нужен живой data scientist, который поможет упорядочить знания. Я окончила офлайн-курсы и получила то, что хотела.
Следующим шагом стал R&D-Incubator в аутсорс-компании SoftServe. Интернатура проходила в формате реального проекта с разработкой по Scrum и полным составом команды, включая тим-лида и product owner. Консультант по datascience-компетенциям показала, что такое научный подход в работе с данными.
Мне 28, а интернатуру в SoftServe я проходила со студентами-программистами. Разница поколений была особенно заметна в подходе к сложным задачам. Я привыкла сначала изучать всю теорию, потом — лучшие практики. Затем — разбираться, как буду решать задачу. И только после — переходить к решению.
Ребята предпочитали приступать к решению сразу и разбираться на ходу. Реализовывать самое быстрое, хоть и не самое качественное, решение, а потом — улучшать (если нужно). Опыт показал, что их подход лучше в условиях R&D.
Первая ступень в data science — роль data analyst. Прежде чем строить модели, нужно научиться работать с данными. Поэтому после инкубатора, в разгар карантина, я начала искать работу в этом направлении. Мне повезло — нашла за пару недель. Сейчас я Junior Data Analyst в продуктовом стартапе. Уже занималась эконометрическими исследованиями, визуализацией данных, и разработкой калькулятора для вычисления прибыли. Чувствую, что могу развиваться в data science ближайшие 10 лет.
Я сформировала рекомендации, отталкиваясь от своего опыта.
Что делать, чтобы развиваться в data science:
#1. Определите план действий
Смена сферы работы — это долгосрочный проект. Не думайте, что получите все и сразу. Придется начинать с позиции trainee или junior, с зарплатами, которые иногда ниже ставки кассира в супермаркете. Нужно иметь финансовую подушку на время поиска работы и первые полгода в профессии.
Мне потребовалось полтора года, чтобы начать зарабатывать знаниями в data science. Я еще не вышла на мой уровень зарплаты как бизнес-аналитика. Но надеюсь на это к началу 2021 года.
Мой коллега по инкубатору в SoftServe, студент второго курса, сразу начал искать проекты на фриланс-биржах. Он учился на живых проектах с реальными заказчиками и прогрессировал намного быстрее. Возможно, вам подойдет такой путь.
#2. Научитесь писать на Python и/или R
Это два основных языка программирования, которые нужны data scientist'у. Нужно знать хотя бы один из них, а лучше — оба. Вы можете начать обучение сами и тренироваться писать код. Язык программирования нужно знать в совершенстве. Я до сих пор изучаю Python и планирую окончить курсы по нему.
#3. Найдите pet dataset
После базового изучения Python переходите к алгоритмам. Найдите свой pet dataset — набор данных, на котором можно тестировать все изучаемые алгоритмы, сравнивая их работу по метрикам точности.
Найти датасеты можно на Kaggle. Это система организации конкурсов по исследованию данных, а также соцсеть специалистов по обработке данных и ML. Там же можно подсмотреть применение алгоритмов на реальных данных — многие составляют обучающие туториалы. Кроме того, вы можете завести аккаунт и участвовать в соревнованиях.
Изучение алгоритмов нужно начинать с обучения с учителем (supervised learning). В этом блоке выделяют задачи регрессии и классификации. Для изучения регрессии опытный data scientist порекомендовала мне искать курсы по эконометрике.
Дальше можно переходить к обучению без учителя (unsupervised learning). Здесь выделяют кластеризацию, поиск правил и уменьшение размерности данных.
Уделите внимание двум крупным блокам:
- решающие деревья / ансамблевые методы
- нейронные сети / глубокое обучение.
#4. Зарегистрируйтесь на GitHub
GitHub — сервис для совместной разработки программ. Зарегистрировавшись там, вы сможете добавлять в аккаунт отчеты по изучению алгоритмов на pet dataset. Эти отчеты покажут ваши навыки будущему работодателю, а для вас станут справочным ресурсом.
#5. Проходите онлайн-курсы
Deep Learning Specialization на Coursera от Эндрю Ына, доцента Стэнфорда и кофаундера Coursera поможет разобраться в нейросетях. Этот курс считается каноническим в datascience-кругах. Кроме того, мне понравился онлайн-курс Data Science Fundamentals от Data Root Labs.
#6. Читайте статьи и слушайте подкасты
Так вы узнаете, что происходит в индустрии и познакомитесь с чужими кейсами. Мне нравятся статьи на Towards Data Science. Еще у них есть классный подкаст. Кроме него, слушаю Data Crunch, Data Skeptic, SuperDataScience.
Почти весь контент — англоязычный. На русском и украинском читаю DOU и Habr.
#7. Научитесь быстро запоминать важное
Если все задачи новые и сложные, просто некогда долго слушать, например, онлайн-курс по интересующей теме. Во время стажировки в R&D-Incubator мне часто приходилось прослушивать ролики на скорости 1.5х, а то и 2.0х, и быстро просматривать статьи. Я привыкла все систематизировать, поэтому было тяжело. Но со временем я научилась выделять важное из огромного потока информации.