Data scientist, data analyst, data engineer: хто вони та у чому різниця | robot_dreams
Для відстеження статусу замовлення - авторизуйтесь
Введіть код, який був надісланий на пошту Введіть код із SMS, який був надісланий на номер
 
Код дійсний протягом 2 хвилин Код з SMS дійсний протягом 2 хвилин
Ви впевнені, що хочете вийти?
Сеанс завершено
На головну
Data scientist, data analyst, data engineer

Data scientist, data analyst, data engineer

Хто вони й у чому різниця.

Деякі вважають, що data scientist, дата-аналітик та дата-інженер займаються одним і тим самим. Насправді все не так просто. У кожного з них — свої завдання та функції, які можуть перетинатися.

Разом з Ольгою Матєвою, Analyst у Preply, Максимом Натальчишиним, Data Engineer у AutoDoc, та Віталієм Радченком, Data Scientist у YouScan, розповідаємо, у чому різниця позицій і чи може одна людина поєднувати компетенції.

Хто за що відповідає
 

Дата-аналітик — позиція для тих, хто хоче почати працювати з даними. Технічні навички є важливими, але головне — знання статистичних методів.

Ольга: «Дата-аналітики шукають інсайти в даних, створюють візуалізації та дають відповіді на запити від бізнесу (наприклад, яку метрику краще використовувати для цього функціоналу). У роботі аналітиків більше комунікації, ніж у роботі інженерів та фахівців з data science.

Ключові навички дата-аналітика:

  • знання мов Python/R, математики/статистики, SQL;
  • досвід роботи з платформами для аналітики та візуалізацій Tableau/Power BI;
  • любов до чисел і посидючість ― часто потрібно доволі довго копати, щоби знайти щось цікаве;
  • здатність розв’язувати проблеми, шукати нові ідеї та рішення;
  • комунікабельність (важливі й комунікація в команді, і правильне подання результатів аналізу)».

Data scientist найчастіше працює з великими масивами даних. Він шукає в них закономірності, будує прогнозні моделі, створює рекомендаційні алгоритми. Також data scientist може візуалізувати дані.

Віталій: «Data scientist повинен підлаштуватися під певне завдання та розв’язати його. Якщо потрібно, він може поєднувати й компетенцію дата-аналітика, і компетенцію дата-інженера. Але це не означає, що data scientist впорається краще за дата-інженера із завданням оптимізації пайплайну або знайде аномалії в даних швидше за дата-аналітика.

Найскладніше для data scientist — зібрати якісні дані. У більшості випадків якість даних — це визначальний критерій, без якого технічна частина не має сенсу.

Ключові навички data scientist'а:

  • вміння аналізувати. Потрібно проаналізувати завдання перед його виконанням, подумати над тим, які дані потрібні та як їх найкраще зібрати. Після збору даних потрібно оцінити їхню якість, потім — якість моделей та ймовірність їхнього використання в реальному світі. На кожному етапі можна припуститися помилки. Тому слід аналізувати проміжні результати. Інакше ви ризикуєте не помітити помилку і згаяти час, виявивши її у фіналі.
  • здатність вчитися від завдання до завдання, щоби попередній досвід допомагав вам справлятися з новими викликами швидше».

Крім цього, data scientist повинен мати досвід програмування на Python, вміти працювати з SQL, створювати візуалізації даних і мати хоча б базові знання у сфері machine learning.

Дата-інженер забезпечує збір даних та готує їх для роботи аналітиків та фахівців з data science.

Ольга: «Дані надходять із різних джерел. Потрібно, щоб усі вони завантажувалися, метчилися між собою, були нормальної якості та приходили регулярно. Потім ці дані треба збирати в бази, з таблицями, зрозумілими зв’язками та нормальною швидкістю роботи».

Для інженера важливою є глибока технічна підготовка — навички програмування на Python або Java, розуміння баз даних. Дата-інженери розробляють програмні рішення для big data, створюють пайплайни, підтримують архітектуру даних.

Максим: «Дата-інженер займається проєктуванням та наповненням сховищ, а також трансфером даних.
Ключові навички дата-інженера  —  це знання в галузі баз даних (реляційних/нереляційних, колонкових сховищ)».

За даними Towards Data Science, найчастіше у вимогах до дата-інженерів в описах вакансій згадується знання мови для керування базами даних SQL, мови програмування Python, фреймворку для обробки даних Spark, хмарної платформи AWS.

Джерело: Towards Data Science

Суміжність професій
 

Чим більша компанія, тим вища ймовірність, що там працюватимуть і інженер, і аналітик, і data scientist. У стартапах компетенції всіх трьох фахівців може поєднувати одна людина — збирати дані, будувати моделі та аналізувати їх.

Ольга: «Пошук інсайтів у даних можна розбити на під задачу збір даних, перевірку, сам аналіз та результати. Часто в маленьких та середніх компаніях один аналітик бере на себе всі завдання. У великих — роботи більше, і завдання розподіляються між фахівцями різного профілю — аналітиками, data scientist'ами та дата-інженерами».

Віталій: «Різниця між професіями — у пріоритетах та спеціалізації: у дата-інженера — сильний ухил у девелоперську частину, у дата-аналітика — у доменну область та аналіз, а data scientist може поєднувати навички інженера та аналітика. Він має підлаштуватися під конкретне завдання та виконати його».

 

 

Ще статті