Data scientist, data analyst, data engineer
Кто они и в чем разница.
Некоторые считают, что data scientist, дата-аналитик и дата-инженер занимаются одним и тем же. На самом деле все не так просто. У каждого из них — свои задачи и функции, которые могут пересекаться.
Вместе с Ольгой Матевой, Analyst в Preply, Максимом Натальчишиным, Data Engineer в AutoDoc, и Виталием Радченко, Data Scientist в YouScan, рассказываем, в чем различие позиций и может ли один человек совмещать компетенции.
Кто за что отвечает
Дата-аналитик — позиция для тех, кто хочет начать работать с данными. Технические навыки важны, но главное — знание статистических методов.
Ольга: «Дата-аналитики ищут инсайты в данных , создают визуализации и дают ответы на запросы от бизнеса (например, какую метрику лучше использовать для этого функционала). В работе аналитиков больше коммуникации, чем в работе инженеров и специалистов по data science.
Ключевые навыки дата-аналитика:
- знание языков Python/R, математики/статистики, SQL,
- опыт работы с платформами для аналитики и визуализаций Tableau/Power BI
- любовь к цифрам и усидчивость. Часто нужно довольно долго копать, чтобы найти что-то интересное.
- способность решать проблемы, искать новые идеи и решения.
- коммуникабельность (важны и коммуникация в команде, и правильная подача результатов анализа)».
Data scientist чаще работает с большими массивами данных. Он ищет в них закономерности, строит прогнозные модели, создает рекомендательные алгоритмы. Также data scientist может визуализировать данные.
Виталий: «Data scientist должен подстроиться под определенную задачу и решить ее. Если нужно, он может совмещать и компетенции дата-аналитика, и компетенции дата-инженера. Но это не значит, что data scientist справится лучше дата-инженера с задачей оптимизации пайплайна или найдет аномалии в данных быстрее дата-аналитика.
Сложнее всего для data scientist собрать качественные данные. Почти всегда качество данных — это определяющий критерий, без которого техническая часть не имеет смысла.
Ключевые навыки data scientist'а:
- умение анализировать. Нужно проанализировать задачу перед ее выполнением, подумать над тем, какие данные нужны и как их лучше всего собрать. После сбора данных нужно оценить их качество, потом — качество моделей и вероятность их использования в реальном мире. На каждом этапе можно допустить ошибку. Поэтому нужно анализировать промежуточные результаты. Иначе вы рискуете не заметить ошибку и потратить время зря, обнаружив ее в финале.
- способность учиться от задачи к задаче, чтобы предыдущий опыт помогал вам справляться с новыми вызовами быстрее».
Кроме этого, data scientist должен иметь опыт программирования на Python, уметь работать с SQL, создавать визуализации данных и обладать хотя бы базовыми знаниями в области machine learning.
Дата-инженер обеспечивает сбор данных и готовит их для работы аналитиков и специалистов по data science.
Ольга: «Данные поступают из разных источников. Нужно, чтобы все они загружались, мэтчились между собой, были нормального качества и приходили регулярно. Потом эти данные нужно собирать в базы, с таблицами, понятными связями и нормальной скоростью работы».
Для инженера важна глубокая техническая подготовка — навыки программирования на Python или Java, понимание баз данных. Дата-инженеры разрабатывают программные решения для big data, создают пайплайны, поддерживают архитектуры данных.
Максим: «Дата-инженер занимается проектированием и наполнением хранилищ, а также трансфером данных.
Ключевые навыки дата-инженера — это знания в области баз данных (реляционных/нереляционных, колоночных хранилищ)».
По данным Towards Data Science, чаще всего в требованиях к дата-инженерам в описаниях вакансий упоминается знание языка для управления базами данных SQL, языка программирования Python, фреймворка для обработки данных Spark, облачной платформы AWS.
Источник: Towards Data Science
Смежность профессий
Чем крупнее компания, тем выше вероятность, что там будут работать и инженер, и аналитик, и data scientist. В стартапах компетенции всех трех специалистов может совмещать один человек — собирать данные, строить модели и анализировать их.
Ольга: «Поиск инсайтов в данных можно разбить на подзадачи: сбор данных, проверку, сам анализ и результаты.Часто в маленьких и средних компаниях один аналитик берет на себя все задачи. В крупных работы больше, и задачи распределяются между специалистами разного профиля — аналитиками, data scientist'ами и дата-инженерами».
Виталий: «Разница между профессиями — в приоритетах и специализации: у дата-инженера — сильный уклон в девелоперскую часть, у дата-аналитика — в доменную область и анализ, а data scientist может сочетать навыки инженера и аналитика. Он должен подстроиться под конкретную задачу и решить ее».