Data scientist, data analyst, data engineer

Data scientist, data analyst, data engineer

Кто они и в чем разница.

Некоторые считают, что data scientist, дата-аналитик и дата-инженер занимаются одним и тем же. На самом деле все не так просто. У каждого из них — свои задачи и функции, которые могут пересекаться.

Вместе с  Ольгой Матевой, Analyst в Preply, Максимом Натальчишиным, Data Engineer в AutoDoc, и Виталием Радченко, Data Scientist в YouScan, рассказываем, в чем различие позиций и может ли один человек совмещать компетенции.

Кто за что отвечает
 

Дата-аналитик — позиция для тех, кто хочет начать работать с данными. Технические навыки важны, но главное — знание статистических методов.

Ольга: «Дата-аналитики ищут инсайты в данных , создают визуализации и дают ответы на запросы от бизнеса (например, какую метрику лучше использовать для этого функционала). В работе аналитиков больше коммуникации, чем в работе инженеров и специалистов по data science.

Ключевые навыки дата-аналитика: 

  • знание языков Python/R, математики/статистики, SQL, 
  • опыт работы с платформами для аналитики и визуализаций Tableau/Power BI
  • любовь к цифрам и усидчивость. Часто нужно довольно долго копать, чтобы найти что-то интересное. 
  • способность решать проблемы, искать новые идеи и решения. 
  • коммуникабельность (важны и коммуникация в команде, и правильная подача результатов анализа)».

Data scientist чаще работает с большими массивами данных. Он ищет в них закономерности, строит прогнозные модели, создает рекомендательные алгоритмы. Также data scientist может визуализировать данные. 

Виталий: «Data scientist должен подстроиться под определенную задачу и решить ее. Если нужно, он может совмещать и компетенции дата-аналитика, и компетенции дата-инженера. Но это не значит, что data scientist справится лучше дата-инженера с задачей оптимизации пайплайна или найдет аномалии в данных быстрее дата-аналитика. 

Сложнее всего для data scientist собрать качественные данные. Почти всегда качество данных — это определяющий критерий, без которого техническая часть не имеет смысла.

Ключевые навыки data scientist'а:

  • умение анализировать. Нужно проанализировать задачу перед ее выполнением, подумать над тем, какие данные нужны и как их лучше всего собрать. После сбора данных нужно оценить их качество, потом — качество моделей и вероятность их использования в реальном мире. На каждом этапе можно допустить ошибку. Поэтому нужно анализировать промежуточные результаты. Иначе вы рискуете не заметить ошибку и потратить время зря, обнаружив ее в финале.  
  • способность учиться от задачи к задаче, чтобы предыдущий опыт помогал вам справляться с новыми вызовами быстрее».

Кроме этого, data scientist должен иметь опыт программирования на Python, уметь работать с SQL, создавать визуализации данных и обладать хотя бы базовыми знаниями в области machine learning. 

Дата-инженер обеспечивает сбор данных и готовит их для работы аналитиков и специалистов по data science. 

Ольга: «Данные поступают из разных источников. Нужно, чтобы все они загружались, мэтчились между собой, были нормального качества и приходили регулярно. Потом эти данные нужно собирать в базы, с таблицами, понятными связями и нормальной скоростью работы». 

Для инженера важна глубокая техническая подготовка — навыки программирования на Python или Java, понимание баз данных. Дата-инженеры разрабатывают программные решения для big data, создают пайплайны, поддерживают архитектуры данных.

Максим:  «Дата-инженер занимается проектированием и наполнением хранилищ, а также трансфером данных.
Ключевые навыки дата-инженера —  это знания в области баз данных (реляционных/нереляционных, колоночных хранилищ)». 

По данным Towards Data Science, чаще всего в требованиях к дата-инженерам в описаниях вакансий упоминается знание языка для управления базами данных SQL, языка программирования Python, фреймворка для обработки данных Spark, облачной платформы AWS.

Источник: Towards Data Science

Смежность профессий
 

Чем крупнее компания, тем выше вероятность, что там будут работать и инженер, и аналитик, и data scientist. В стартапах компетенции всех трех специалистов может совмещать один человек — собирать данные, строить модели и анализировать их. 

Ольга: «Поиск инсайтов в данных можно разбить на подзадачи: сбор данных, проверку, сам анализ и результаты.Часто в маленьких и средних компаниях один аналитик берет на себя все задачи. В крупных работы больше, и задачи распределяются между специалистами разного профиля — аналитиками, data scientist'ами и дата-инженерами».

Виталий:  «Разница между профессиями — в приоритетах и специализации: у дата-инженера — сильный уклон в девелоперскую часть, у дата-аналитика —  в доменную область и анализ, а data scientist может сочетать навыки инженера и аналитика. Он должен подстроиться под конкретную задачу и решить ее».

Ещё статьи
Как системы работают с высокими нагрузками.
Зачем нужны библиотеки для векторизации.