Data-аналіз і статистичний аналіз

Чи є відмінність

Обидві ці галузі використовують дані, щоб отримати висновки про групи споживачів, населення або цільовий ринок. Але кінцева мета data-аналітика — зрозуміти, як результати досліджень здатні допомогти бізнесу. У статиста ж такої потреби немає.

Розповідаємо, чи є інші відмінності між напрямками.

Як усе починалося

На початку XVIII століття англієць Джон Арбетнот вивчив співвідношення статей при народженні. Він порівняв записи про народження кожної людини в Лондоні в період з 1629 до 1710 року (весь цей час народжувалося більше чоловіків, ніж жінок). Ці роботи вважають першими дослідженнями про статистичну значущість. Тоді вчені досліджували здебільшого демографічні дані — до інших у них доступу майже не було.

Data-аналітика виникла майже 300 років потому. У 1980-х і 90-х роках вчені Міжнародної асоціації статистичних обчислень і KDNuggets почали використовувати комп’ютери для обробки даних. Причина — інформації стало набагато більше, з’явилися нові методи її збору та аналізу. Це дало поштовх для розвитку data-аналітики. Компаніям потрібно було прогнозувати ринки та поведінку споживачів. Тому data-аналітику почали застосовувати з комерційною метою.

Для бізнесу чи ні

Data-аналіз найчастіше проводять з бізнес-метою — він допомагає розробити стратегії розвитку компанії. Завдяки аналізу даних компанії можуть дізнатися, як мінімізувати витрати, вивести новий продукт на ринок і чи підвищує рекламна кампанія продажі.

Серед методів data-аналітики:

#1. Регресія. Вона визначає вплив однієї або декількох незалежних змінних на залежну змінну.

#2. Мережевий аналіз. Він знаходить зв’язок між одиницями даних, формуючи пари взаємопов’язаних спостережень.

#3. Моделювання даних. Мета — дати змогу компанії управляти даними як ресурсом.

Data-аналітика витягує інформацію з різних джерел, включно з інфопотоками в реальному часі. Наприклад, неструктуровані дані (електронні листи, медичні дані, вебсторінки). Алгоритмів, здатних якісно обробляти неструктуровані дані, поки що немає. Тому аналітики роблять це самі. Підготовка неструктурованих даних до аналізу — препроцесинг.

Один із найперспективніших напрямів Data Analysis — нейромережева аналітика. З її допомогою можна не лише знайти закономірність, а й спрогнозувати, наприклад, зміну цін на біржі або погоду. Цей процес має 4 ступені:

#1. Вибір архітектури мережі (багатошарові персептрони, радіальні базисні функції, самоорганізовані карти ознак тощо)

#2. Налаштування параметрів навчання

#3. Саме навчання

#4. Перевірка навчання та аналіз отриманих результатів

Ці ступені циклічні. Якщо результати не відповідають цілям аналізу, процес поновлюється.

Статистичний аналіз, своєю чергою, допомагає передбачити характеристики або поведінку багатьох на основі небагатьох. Головний метод — аналіз обмеженого обсягу даних (вибірки). Для її дослідження використовують строгі величини описових статистик. Наприклад:

#1. Середнє значення — параметр або число, укладене між найменшим і найбільшим із сукупності значень.

#2. Кореляція — взаємозв’язок двох або декількох випадкових параметрів.

#3. Медіана — це показник, який ділить розподіл навпіл.

#4. Регресійний аналіз встановлює залежність однієї змінної від іншої (інших).

#5. Дисперсійний аналіз досліджує важливість відмінностей у середніх значеннях.

Ключові компетенції аналітика даних

Data-аналітик повинен знати R і Python, SQL-подібні мови, розумітися на автоматизованому пошуку (Data Mining), орієнтуватися в бізнес-моделях та вміти візуалізувати дані.

Аналітик даних працює з HIVE і PIG, фреймворками Hadoop і Apache Spark, розуміється на машинному навчанні, статистичному аналізі та математиці. Сам процес роботи аналітика часто складається з таких етапів:

збір інформації;
препроцесинг даних: вибірка, очищення, сортування;
пошук закономірності;
візуалізація;
висунення гіпотез про те, як підвищити бізнес-показники;
аргументація гіпотез.

Етапи роботи data-аналітика / Data Science Central

Наука, не підвладна часу

Статистичний аналіз зазвичай використовує математичні методи (перевірка гіпотез і ймовірності), а також теореми. Основні — теорема Чебишова, теорема Бернуллі й теорема Ляпунова.

Етапи роботи статиста / Data Science Central

Статистичний аналіз більш послідовний, ніж data-аналіз, і спрямований на розуміння одного конкретного аспекту вибірки за раз. Наприклад, середнього, стандартного відхилення або довірчого інтервалу.

Є кілька десятків основних методів статистичного аналізу. Серед них — кореляційний, регресійний та кластерний аналізи.

Регресійний аналіз визначає зв’язки між змінними, кореляційний — дає розуміння про схожість їхньої поведінки.

Для кластерного аналізу потрібно не тільки зібрати дані, а й вирішити, на скільки кластерів їх потрібно розділити і як у них визначати feature selection. Наприклад, усі заводи України можна розділити на 15 кластерів за територіальною ознакою. Тоді feature selection може стати близькість їх один до одного.

Не можна точно сказати, де закінчується статистика і починається data-аналітика. Тому що в основі аналітики даних — статистичні методи. Але для data-аналізу не так важлива математична строгість. Він частіше помиляється, але водночас знаходить цікавіші інсайти в інформації.

Автор: Тетяна Мерцалова

Поділитися: