7 способов улучшить данные

Как выжать максимум из датасетов.

Из-за низкого качества данных компании теряют миллиарды долларов. Работая с плохой «датой», можно сделать ошибочные выводы и предложить неверное решение. 

Единого стандарта качества нет. Но можно оценивать наборы данных, учитывая:

  • точность (данные верно описывают объект или событие);
  • полноту (данные описывают все параметры объекта); 
  • актуальность и своевременность (данные «свежие»  и периодически обновляются);
  • согласованность (записи сохранены в одинаковых форматах).

Рассказываем, как повысить качество данных.

#1. Определите критерии для данных вашего проекта
 

Специфические критерии качества нужны, чтобы понять, как должны выглядеть подходящие данные. Например, можно рассчитать:

  • коэффициент пустых полей — отношение количества незаполненных полей к общему числу записей;
  • показатель отказов при рассылке по электронной почте (можно рассчитать, разделив неудачные рассылки на общее число адресов в списке);
  • затраты на хранение данных — большое количество дубликатов и устаревших резервных копий в конечном итоге может стоить компании кругленькую сумму.

#2. Создайте подробные метаданные
 

Метаданные — это информация о самих данных. Например, метаданные текстового документа: имя автора, размер и дата создания файла, ключевые слова.

Метаданные помогают обеспечить контекст, стандартизируют форматы и правила работы с данными. Полные метаданные помогают оценить качество данных и упрощают интеграцию записей из разных источников.

#3. Профилируйте данные
 

Профилирование — это анализ корректности и уникальности данных. Оно помогает систематизировать информацию, находя связи между БД (базами данных) или таблицами. Единого алгоритма профилирования нет, но можно выделить примерные этапы:

  • сбор описательной статистики: минимум и максимум, среднее значений;
  • сбор типов данных, длины значений и повторяющихся шаблонов в записях;
  • разметка данных ключевыми словами или разделение на категории;
  • обнаружение метаданных и оценка их точности;
  • выявление связей и функциональных зависимостей между таблицами и переменными (например, связь между демографией клиентов и тенденцией их покупок можно использовать при проведении рекламных кампаний).

Профилирование данных позволило Департаменту парков и дикой природы Техаса узнать, что нужно целевой аудитории. Департамент отвечает за использование и сохранение парковых зон и водоемов штата. В 2016 году в организации заметили, что люди стали реже проводить время на природе.

После профилирования БД посетителей аналитики выяснили, что испаноязычные семьи среднего класса, живущие в пригороде Хьюстона, любят рыбалку. Это позволило департаменту включить озера вблизи Хьюстона в программу Neighborhood Fishin, которая разрешает ловить рыбу на озерах. Департамент повысил доходы благодаря продаже сертификатов на рыбную ловлю и сопутствующих товаров.

#4. Нормализуйте данные
 

Нормализация — приведение данных из разных источников и в разных форматах к одному виду. Данные могут включать в себя несхожие варианты написания полей. Например, скрипт импортирует данные о местоположении клиентов через веб-службы и файлы FTP. Одна локация может называться по-разному:

  • Соединенные Штаты,
  • Соединенные Штаты Америки,
  • США.

Нормализация данных нужна для создания единых правил сохранения данных и устранения избыточности (случаев, когда один элемент хранится в разных таблицах базы данных).

#5. Уменьшайте количество данных произвольной формы
 

Заполняя анкеты, пользователи вводят информацию по-разному. Поэтому лучше фильтровать и форматировать данные на этапе ввода. Например, поле для номера телефона может подсказывать код страны и включать в себя разделители знаков.

Источник: uxmovement.com

Нужно периодически проверять, не собирается ли избыточная и ненужная информация. Упрощайте заполнение полей и сокращайте их число, запрашивая только самые необходимые данные.

#6. Предотвращайте дублирование данных
 

Чтобы найти повторяющиеся записи в базе, можно:

  • настроить триггеры, которые срабатывают, когда другие системы (Microsoft SQL Server, Oracle Database) пытаются записать дубликат,
  • предлагать пользователю функцию слияния для объединения старых записей с новыми,
  • периодически создавать отчеты для поиска дубликатов,
  • проводить проверки при добавлении новых данных.

Не дублировать данные также поможет «умный» поиск по базе. Он умеет находить совпадения, несмотря на различия в написании, другой порядок слов, конкатенацию, использование синонимов и опечатки.

#7. Определите, кому принадлежат данные
 

Лучше назначить одного владельца данных — он будет отвечать за все операции и хранение. В зависимости от размера компании, это может быть CDO (директор по данным) или администратор БД. Когда за стратегию отвечает один человек, вырабатывается общая политика хранения и внесения данных. Это ускоряет бизнес-процессы.

Плюсы качественных данных

  • Достоверность данных  — основа для принятия решений в компании.
  • Масштабирование системы, увеличение количества пользователей без краха базы и в автоматическом режиме.
  • Простая интеграция и слияние данных из разных систем.
  • Экономия времени и денег на поддержание качества данных.