Чим займається дата-аналітик

Чим займається дата-аналітик

Як працювати з даними: фахівці діляться досвідом.

Гіпотези, які не підкріплені даними, можуть призвести до помилки. Особливо коли факти підганяють під теорії, а не навпаки. Ця ідея є основою аналізу даних: вилучити суть із інформації, щоби приймати обґрунтовані рішення.

Чат-боти для відстеження посилок, рекомендації фільмів і музики, розпізнавання облич, безпілотні автомобілі, персоналізована взаємодія банків із клієнтами — усе це не було б можливим без дата-аналітики.

У звіті Всесвітнього економічного форуму The Future of Jobs Report 2020 аналітики даних названі однією з найпопулярніших професій. Очікується, що до 2023 року індустрія великих даних коштуватиме близько $77 млрд. 94% підприємств кажуть, що аналіз даних є важливим для зростання їхнього бізнесу та цифрової трансформації.

Кількість даних постійно зростає, тому аналітиків для роботи з ними потрібно все більше.

Своїм досвідом з нами поділилися: Лілія Луценко, Product Analyst із Wise і лектор курсу «Продуктова аналітика: як зрозуміти продукт через метрики», Дмитро Усманов, Head of Analytics в United Tech і автор телеграм-каналу ро аналітику.

Лілія: «Мій робочий день починається з health check продуктових метрик і аналізу поточних A/B-тестів. Ближче до обіду — зустрічі та обговорення, грумінги, а під кінець дня — робота із завданнями від команд.

У мої обов’язки входить підготовка A/B-тестів, аналіз результатів впровадження нових або покращення старих фіч, підготовка рекомендацій щодо того, як розвивати функціонал».

Дмитро: «Я працював у проєктах із мобільними додатками та в eGov-сфері. Робота дата-аналітика потрібна всюди, щоби допомогти продукту заробляти більше грошей завдяки дослідженням та A/B-тестам, а також оптимізувати витрати».

Типи аналізу даних

Є кілька підходів до визначення типів дата-аналітики. Назвемо основні.

Статистичний аналіз. Допомагає знайти відповідь на запитання «що сталося?», описує та узагальнює кількісні дані. Наприклад, статистичний аналіз може продемонструвати розподіл продажу за групою співробітників та середній показник продажу на одного працівника.

Діагностичний аналіз. Визначає, «чому це сталося». Припустимо, до лікарні звертається багато пацієнтів. Аналіз даних може показати, що вони мають загальні симптоми певного вірусу. Це допоможе визначити, що за вірус, «чому», спровокував епідемію.

Предиктивний аналіз. На відміну від попередніх типів аналізу, які досліджують отримані дані та роблять висновки про минуле, передиктивна аналітика використовує дані для прогнозування майбутнього. Відповідає на запитання «що може статися в майбутньому?». Наприклад, допомагає помітити, що мобільний додаток для схуднення активніше завантажують навесні, а взимку ― кількість завантажень падає. Отже, міграцію з однієї бази даних до іншої краще запланувати на зиму — від можливих збоїв постраждає менше користувачів.

Прескриптивний аналіз. Збирає висновки, отримані з перших трьох типів аналізу, та використовує їх для формування рекомендацій, за якими має діяти компанія. Відповідає на питання «що нам із цим робити?». Спираючись на результати цього аналізу, компанія може будувати стратегію на 5–10 років.

Методи аналізу даних

Кластерний аналіз — угруповання даних за схожістю. Часто використовується для пошуку прихованих закономірностей у даних. Наприклад, маркетологи групують клієнтів у кластери, ґрунтуючись на демографічних даних або інших чинниках, щоби персоналізувати пропозицію. Зробити це для кожного клієнта окремо — неможливо.

Когортний аналіз — допомагає вивчити поведінку користувачів. Може бути корисним, щоби показати вплив кампаній на певні групи клієнтів. Наприклад, компанія формує різні види email для розсилки користувачам, а потім відстежує ефективність кожного виду.

Регресійний аналіз — використовує історичні дані, щоби зрозуміти, як впливають змінні на результат. Наприклад, компанія проаналізувала продаж за 2017 рік і виявила, що на результат вплинули якість продукції, дизайн магазину й рівень обслуговування клієнтів. Тепер можна використати регресію, щоби проаналізувати, які з цих змінних змінилися і чи з’явилися нові протягом 2021 року.

Факторний аналіз — метод аналітики для оптимізації певних сегментів даних. Приклад — оцінка товару покупцем: які чинники він звертає увагу, вибираючи товар.

Аналіз тексту — організація великих обсягів даних так, щоби ними було легко керувати. Це також очищення даних, щоби витягти саме ті, які потрібні для певної метиі.

Процес аналізу даних

Етапи аналізу даних включають збирання, обробку, вивчення інформації для пошуку закономірностей. Процес складається з:

  • 1. Визначення вимог та цілей. Потрібно зрозуміти, з якою метою проводиться аналіз, який тип аналізу для цього найкраще підійде й що саме варто аналізувати.
  • 2. Збору даних. Джерела — дослідження, опитування, інтерв’ю, анкетування, спостереження, фокус-групи.
  • 3. Обробки та очищення. На цьому етапі видаляються повторювані, невалідні або нерелевантні дані.
  • 4. Аналізу. Аналітики можуть застосовувати різні методи, щоби розібратися, про що свідчать дані. Наприклад, середнє значення полегшує розуміння даних: усуває індивідуальні відмінності та узагальнює характеристики показника. Медіана показує структуру даних, зберігаючи індивідуальні відмінності показника.
  • 5. Інтерпретації. Отримані результати слід розтлумачити та запропонувати план дій на основі висновків.
  • 6. Візуалізації. Потрібно подати інформацію так, щоби її було легко прочитати та зрозуміти. Можна використовувати діаграми, графіки, карти, презентації, інфографіки. Візуалізація допомагає порівнювати набори даних та спостерігати за взаємозв’язками.

Наприклад, для аналізу ринку нерухомості дата-аналітик визначає цілі, одна з яких — розрахувати оптимальну вартість житла комфорт-класу. Він буде збирати дані про локацію будинків (престижність району, інфраструктура, відстань до метро), дані про тип будинку, площу, наявність ремонту. Далі — збір даних із відкритих джерел, видалення нерелевантних (наприклад, застарілих) і аналіз.

Результат аналізу формується у висновки, які можна представити у вигляді інфографіки.

Вимоги до дата-аналітика

Бюро статистики праці США прогнозує зростання кількості фахівців із роботи з даними: до 2026 року сфера науки про дані зросте приблизно на 28 %

Лілія: «Дата-аналітики допомагають ухвалювати правильні рішення про те, в якому напрямі розвивати продукт. Сучасному дата-аналітику потрібно знати статистику, математику, вміти працювати з базами даних, аналізувати та візуалізувати дані. З технологій — SQL, Tableau, Power BI, Data Studio, Python».

Які інструменти використовують аналітики даних:

  • Інструменти бази даних. SQL обробляє великі набори даних, а Microsoft Excel показує дані.
  • Мови програмування. Мова статистичної обробки даних дає змогу обробляти великі датасети. Python і R — найпоширеніші, але інші мови також використовуються. Усе залежить від проєкту.
  • Візуалізація даних. Презентація результатів у оптимальній для сприйняття формі допомагає показати роботу аналітика. Tableau, Jupyter Notebook і Power BI часто використовують саме з цією метою.

Дмитро: «Насамперед потрібна математична основа: лінійна алгебра, теорія ймовірності, статистика. Менше — матан, дискретка (матаналіз та дискретна математика — Ред.).

Для візуалізації зазвичай використовують BI: Tableau та PowerBI — лідери ринку, але іноді можна зустріти Redash, Superset, Qlik і навіть Python-бібліотеки — Matplotlib, Seaborn, Plotly.

SQL дуже важливий. Щоби його вивчити, є хороші тренажери, але бажано практикуватися на реальних завданнях. Для вправ можна використовувати SQL Zoo.

Залежно від компанії вимагають знання Python, але переважно — базові вміння працювати з найпопулярнішими бібліотеками для аналізу (Pandas, Numpy, Sklearn, Seaborn, Matplotlib та іншими)».

Більше безкоштовних ресурсів із вивчення SQL — у добірці.

Серед софт-скілів важливе вміння розв’язувати проблеми. Аналітик повинен розуміти проблему продукту, яку необхідно розв’язати: наприклад, чому програмою не користуються люди 30–35 років. А також помічати закономірності та тенденції, критично мислити та знаходити прогалини у своїй роботі. Важливо ще й уміти чітко доносити свої ідеї.

Ще статті
Віктор Шитюк, Lead Data Engineer з 12 річним досвідом у IT сфері, про робочу рутину інженера даних, must-have інструменти та перспективи професії.