Як працювати з Tableau: база та лайфхаки
Колонка Олексія Білая, Senior BI Analyst в OLX Group
Tableau — одна з найпопулярніших програм для візуалізацій даних. Її застосовують у Data Science, маркетингу, продажах і не тільки. Разом з Олексієм Білаєм, Senior BI Analyst в OLX Group, розбираємося, як спростити роботу в програмі.
Хто використовує Tableau і з чого почати вивчення
Насамперед програми для візуалізації корисні дата-, продуктовим і фінансовим аналітикам. У них завжди є User Flow, дані про доходи, продажі та інші процеси, розтягнуті в часі, для яких знадобиться візуалізація. Вона допоможе побачити відхилення, сильні/слабкі сторони та інші нюанси, які одразу помітні на графіку, але не такі очевидні в табличному вигляді.
Також Tableau можуть використовувати керівники підрозділів і департаментів, щоб самостійно редагувати борди, які їх не влаштовують.
Опанувати програму просто — в Tableau інтуїтивний інтерфейс. Щоб почати, встановіть програму і спробуйте візуалізувати дані з Excel-файлу. Візуалізація буде готова в кілька кліків. Якщо ви не впевнені, що інформація відтворилася правильно — наприклад, хотіли вивести середню суму продажів, але вона здається некоректною, — можете перевірити її в Excel.
Типи підключення до даних
Є два варіанти підключення:
- live connection
- data extract
Деякі користувачі дашбордів хочуть стежити за даними мало не щохвилини. У такому разі нам підійде live connection — він завжди підхоплює актуальні дані, які є в таблиці.
Але якщо у дашборда багато користувачів, і щоразу, коли користувач заходить, Tableau оновлює дані, щоб показати йому найсвіжіші, то можливі складнощі. Наприклад, дані можуть довго підтягуватися, повторний запит у базу може відбуватися під час фільтрації, переходу на іншу вкладку тощо. Іноді кількість підключень обмежена на стороні сховища, і якщо кількість користувачів перевищує їх, то а) дані не оновлюються, і б) не відтворюється дашборд.
Data extract передбачає оновлення у встановлений період часу. Наприклад, раз на день. Але зазвичай він швидше працює з відтворенням, діями та взагалі великою кількістю користувачів, тому що Tableau попередньо зберігає дані. А от під час підключення live connection програма має спочатку отримати інформацію, а потім — відтворити. Тому, якщо це технічно можливо і відповідає вимогам, я рекомендую extract з огляду на швидкість роботи.
6 порад для новачків
1. Розберіться з рівнем деталізації
У Tableau є level of detail (LOD) — рівень деталізації. За допомогою LOD можна, наприклад, відтворити в табличному вигляді перелік менеджерів, суму продажів кожного з них, а також вивести для порівняння і середню суму продажів за відділом.
| Менеджер | Сума продажу | Середнє по юніту | Відхилення |
| Менеджер 1 | 800 | 1000 | -20% |
| Менеджер 2 | 1400 | 1000 | +40% |
2. Спробуйте об'єднувати дані вже в самому Tableau
Для об'єднання таблиць можна використовувати юніони, джойни або бленди.
Юніон — «вертикальне» об’єднання таблиць (одна таблиця доповнюється рядками з іншої). Наприклад, у вас є два окремі, але однакові за структурою файли з даними про продажі за різні періоди. Вони об’єднуються за допомогою union.
Якщо потрібно доповнити дані «горизонтально» (наприклад, в одній таблиці містяться дані про продажі, а в іншій — про статус доставки), то для об’єднання застосовують join.
Бленд, своєю чергою. передбачає, що об’єднуються дані з двох джерел, і вони не порівнянні за розміром. Припустимо, інформація з одного джерела деталізована до рівня категорії клієнта. З другого — до рівня клієнта. Тобто з одного боку — 10 рядків (за кількістю сегментів користувачів), а з іншого — мільйони (всі користувачі та всі їхні замовлення). Буває складно зрозуміти, що до чого потрібно приєднувати, зважаючи на те, що це автоматична агрегація в Tableau. Говорячи мовою SQL, blend — це (якоюсь мірою) left join.
У нових версіях програми з’явилося також поняття relationships. Раджу почитати про цей та інші види об’єднання на сайті Tableau: union, join, blend, relationships.
3. Прискорте роботу за допомогою вбудованих функцій
У Tableau є панель show me, яка допомагає створити готову візуалізацію — ви обираєте дані й тип їхнього відтворення. Програма відразу показує, які дані для якої візуалізації потрібні. Наприклад, можете виділити категорію користувачів і суму, яку вони витрачали, купуючи ваші продукти, а Tableau відразу покаже доступні варіанти візуалізації і потім побудує її в один клік.

Скриншот Tableau
Не варто забувати про вкладку Analytics — за її допомогою можна легко візуалізувати лінії тренду, прогнози, тотали або лінії-константи, якими зручно позначити на графіку дати початку і закінчення акції або кампанії.
4. Використовуйте nested sorting
Якщо категорія корпоративних клієнтів купила найбільше наших продуктів, то в сортуванні вона завжди буде першою. Можливі випадки, коли конкретний товар корпоративний сегмент купував менше. Але попри це, цей тип клієнтів буде першим у списку покупців продукту. Тобто дані буде відсортовано не за зростанням чи спаданням. Можливий рандом: 1-4-3-2, а не 1-2-3-4. Розв’язати проблему допомагає nested sorting, бо сортує дані в межах блоку.
На зображенні нижче ми бачимо, що за загальною сумою продажів 2017 рік — останній у списку, а найменше продажів у категорії Furniture було в 2016-му. Але в разі non-nested сортування 2017 рік, як і раніше, залишається вгорі. Nested-сортування відбувається в межах блоку (в цьому випадку — Furniture), і роки ранжують з огляду на суму продажів у категорії.

Скриншот Tableau
5. Застосовуйте colorblind-схему
У Tableau є кольори, які використовують за замовчуванням. Їх добре видно і вони контрастні. Але коли дані потрібно представити в декількох розрізах, з’являється три-п’ять або навіть шість кольорів, краще залучати схему colorblind — вона підходить для більшості користувачів, незалежно від їхніх особливостей кольоросприйняття. Також колірну схему можна встановити як дефолтну для значення (наприклад, сегмента користувача), і тоді вона буде однаковою на кожній візуалізації.

Скриншот Tableau
6. Експериментуйте
Ви можете зробити безліч відкриттів, перетягуючи поля в різні блоки. Хочете перетягнути «сегмент користувача» на Color — спробуйте і відразу побачите, як змінилася візуалізація та чи підходить це вам. Хочете застосовувати Distribution band? Без проблем, просто задайте кілька параметрів і подивіться на результат — можливо, він допоможе краще зрозуміти ваші дані.