Как работать с Tableau: база и лайфхаки

Как работать с Tableau: база и лайфхаки

Колонка Алексея Билая, Senior BI Analyst в OLX Group.

Tableau – одна из самых популярных программ для визуализаций данных. Ее используют в data science, маркетинге, продажах и не только. Вместе с Алексеем Билаем, лектором курса «Tableau. Визуализация данных», разбираемся, как упростить работу в программе.

Кто использует Tableau и с чего начать изучение

В первую очередь, программы для визуализации полезны дата-, продуктовым и финансовым аналитикам. У них всегда есть user flow, данные о доходах, продажах и другие процессы, растянутые во времени, для которых пригодится визуализация. Она поможет увидеть отклонения, сильные / слабые стороны и другие нюансы, которые сразу заметны на графике, но не так очевидны в табличном виде.

Также Tableau могут использовать руководители подразделений и департаментов, чтобы самостоятельно редактировать борды, которые их не устраивают.

Освоить программу просто — у Tableau интуитивный интерфейс. Чтобы начать, установите программу и попробуйте визуализировать данные из Excel-файла. Визуализация будет готова в несколько кликов. Если вы не уверены, что информация отобразилась правильно — например, вы хотели вывести среднюю сумму продаж, но она кажется некорректной, вы можете проверить ее в Excel.

Типы подключения к данным

Есть два варианта подключения:

  • live connection
  • data extract

Некоторые пользователи дашбордов хотят следить за данными чуть ли не ежеминутно. В таком случае нам подойдёт live connection — он всегда подхватывает актуальные данные, которые есть в таблице.

Но если у дашборда много пользователей, и каждый раз, когда пользователь заходит, Tableau обновляет данные, чтобы показать ему самые свежие, возможны сложности. Например, данные могут долго подтягиваться, повторный запрос в базу может происходить при фильтрации, переходе на другую вкладку и так далее. Иногда число подключений ограничено на стороне хранилища, и если количество пользователей превышает их, то а) данные не обновляются, и б) не отображается дашборд.

Data extract предполагает обновление в установленный период времени. Например, раз в день. Но обычно он быстрее работает с отображением, действиями и вообще большим количеством пользователей, потому что Tableau предсохраняет данные. При подключении live connection же программа должна сначала получить информацию, а потом — отобразить. Поэтому, если это технически возможно и соответствует требованиям, я рекомендую extract ввиду скорости работы.

6 советов для новичков

  • Разберитесь с уровнем детализации

     

    В Tableau есть level of detail (LOD) — уровень детализации. С помощью LOD можно, например, отобразить в табличном виде перечень менеджеров, сумму продаж каждого из них, а также вывести для сравнения и среднюю сумму продаж по отделу.

    Менеджер Сумма продаж Среднее по юниту Отклонение
    Менеджер 1 800 1000 -20%
    Менеджер 2 1400 1000 +40%
  • Попробуйте объединять данные уже в самом Tableau

     

    Для объединения таблиц можно использовать юнионы, джойны или бленды. Юнион — «вертикальное» объединение таблиц (одна таблица дополняется строками из другой). Например, у вас есть два отдельных, но одинаковых по структуре файла с данными о продажах за разные периоды. Они объединяются с помощью union.

    Если нужно дополнить данные «горизонтально» (например, в одной таблице содержатся данные о продажах, а в другой — данные о статусе доставки), для объединения используется join.

    Бленд же предполагает, что объединяются данные из двух источников, и они не сопоставимы по размеру. Допустим, информация из одного источника детализирована до уровня категории клиента. Из второго — до уровня клиента. То есть, с одной стороны — 10 строчек (по количеству сегментов пользователей), а с другой — миллионы (все пользователи и все их заказы). Бывает сложно понять, что к чему нужно присоединять, учитывая, что это автоматическая агрегация в Tableau. Говоря на языке SQL, blend — это (в какой-то степени) left join.

    В новых версиях программы появилось также понятие relationships. Советую почитать об этом и других видах объединения на сайте Tableau: union, join, blend, relationships.

  • Ускорьте работу с помощью встроенных функций

     

    В Tableau есть панель show me, которая помогает создать готовую визуализацию — вы выбираете данные и тип их отображения. Программа сразу показывает, какие данные для какой визуализации нужны. Например, вы можете выделить категорию пользователей и сумму, которую они тратили, покупая ваши продукты, а Tableau сразу покажет доступные варианты визуализации, и затем построит ее в один клик.

    Скриншот Tableau

     

    Не стоит забывать о вкладке Analytics – с ее помощью можно легко визуализировать линии тренда, прогнозы, тоталы или линии-константы, которыми удобно обозначить на графике даты начала и окончания акции или кампании.

  • Используйте nested sorting

     

    Если категория корпоративных клиентов купила больше всего наших продуктов, то в сортировке она всегда будет первой. Возможны случаи, когда конкретный товар корпоративный сегмент покупал меньше. Но несмотря на это, этот тип клиентов будет первым в списке покупателей продукта. То есть, данные будут отсортированы не по возрастанию или убыванию. Возможен рандом: 1-4-3-2, а не 1-2-3-4. Решить проблему помогает nested sorting, потому что сортирует данные в пределах блока.

    На изображении ниже мы видим, что по общей сумме продаж 2017-ый год — последний в списке, а меньше всего продаж в категории Furniture было в 2016-ом. Но в случае non-nested сортировки 2017-ый год по-прежнему остается вверху. Nested сортировка происходит в пределах блока (в данном случае — Furniture), и годы ранжированы, исходя из суммы продаж в категории.

    Скриншот Tableau

  • Используйте colorblind-схему

     

    У Tableau есть цвета, которые используются по умолчанию. Они хорошо видны и контрастны. Но когда данные нужно представить в нескольких разрезах, появляется три-пять или даже шесть цветов, лучше использовать схему colorblind — она подходит для большинства пользователей, независимо от их особенностей цветовосприятия. Также цветовую схему можно назначить как дефолтную для значения (например, сегмента пользователя), и тогда она будет одинаковой на каждой визуализации.

    Скриншот Tableau

  • Экспериментируйте

     

    Вы можете сделать множество открытий, перетаскивая поля в разные блоки. Хотите перетащить «сегмент пользователя» на Color — попробуйте, и сразу увидите, как изменилась визуализация и подходит ли это вам. Хотите использовать Distribution band? Без проблем, просто задайте пару параметров и посмотрите на результат — возможно, он поможет лучше понять ваши данные.

Ещё статьи
Как системы работают с высокими нагрузками.
Зачем нужны библиотеки для векторизации.