Що таке прогалини даних і як із ними працювати

Типи та методи.

У даних часто бувають прогалини. Причини цього — неправильне введення або приховування інформації.

Здається, що найкращий спосіб розв’язати таку проблему — заповнити прогалини, але це не завжди правильно. Невдалий вибір типу заповнення прогалин може погіршити результати. Розповідаємо про способи обробки прогалин, які можна використовувати на практиці.

Типи прогалин даних

Щоб обробити прогалини, потрібно зрозуміти, через що вони з’являються. Ось 3 ключові типи.

MCAR (Missing Completely At Random / Відсутні зовсім випадково)

У цій ситуації прогалини даних не залежать від змінних, що спостерігаються й не спостерігаються. Пробіли в даних не ведуть до систематичної помилки, але збільшують випадкову, тому що інформації стає менше.

Наприклад, під час взяття медичних аналізів у записах деяких пацієнтів можуть бути відсутні значення через неправильну обробку лабораторних проб.

MAR (Missing At Random / Відсутні випадково)

Цей термін часто вводить в оману, тому що насправді за MAR дані відсутні невипадково. Прогалина може бути повністю пояснена змінними, про які є повна інформація.

Наприклад, на прийомі терапевта в людей похилого віку майже завжди вимірюють тиск, а в молодих — ні. Тому прогалини в графі «тиск» частіше трапляються в молодих. При цьому тиск у них зазвичай нижчий. Але, хоча розподіл прогалин у графі «тиск» не випадковий, усередині кожної вікової групи пацієнтів воно буде випадковим.

MNAR (Missing Not At Random / Відсутні не випадково)

Ризик прогалини визначається даними. Але відмінність MNAR у цьому, що можливість прогалини в колонці залежить від інформації в ній.

Наприклад, коли людей запитують, чи приймали вони наркотики, респонденти можуть залишити поля порожніми, якщо не хочуть це визнавати. А якщо в пацієнта-курця, який приїхав швидкою, не уточнили, чи курить він, то ризик ускладнень після операції може зрости.

Невипадково відсутні дані важливі, оскільки вони можуть змінити висновки, але такі прогалини складніше обробляти.

Методи обробки прогалин

Listwise Deletion (Complete-case Analysis) / Аналіз повних спостережень

У багатьох бібліотеках цей метод використовують за замовчуванням. Його сенс — видаляти все, де в наборі даних є прогалини.

Якщо застосовувати цей метод при MCAR, параметри моделі не будуть сильно спотворені. Але в подальших обчисленнях буде використовуватися не вся доступна інформація, тому що рядки видалені. Стане більше випадкових помилок, а репрезентативність результатів зменшиться.

Тому статистичні властивості вибірки зміщуватимуться більше під час використання MAR і, тим більше MNAR.

Pairwise Deletion (Available-case Analysis) / Попарне видалення

Досліджуючи залежності між колонками, ми видаляємо ті точки даних, де є прогалини в досліджуваних стовпцях. Тобто, якщо ми хочемо зрозуміти, чи корелюють А і Б, то не дивимося, чи є прогалина С, на відміну від попереднього методу, де відкидаються всі рядки з прогалиною хоча б в одному стовпці.

Плюси в тому, що під час побудови моделі використовується вся інформація, яка зараз є доступною. Але застосування цього методу іноді дає помилкові результати. Наприклад, кореляція може перевищувати одиницю.

Last observation carried forward / Повторення результату останнього спостереження

Цей метод використовують, коли в часових рядах заповнюють прогалини, якщо наступні та попередні значення взаємопов’язані.

Наприклад, ми щохвилини вимірюємо температуру повітря. У нормальних умовах між вимірами величина не змінюватиметься. А це означає, що в такій ситуації можна заповнювати прогалини.

Але є й мінуси. Через використання цього можуть спотворюватися статистичні властивості. Наприклад, дублюватиметься викид (тобто прогалини будуть заповнюватися аномальним значенням). Крім того, метод спотворюватиме результати, якщо в даних багато прогалин поспіль.

Indicator Method / Індикаторний метод

Прогалини тут заповнюються однаковими значеннями. Зазвичай — середнім або медіаною (за колонкою). Наприклад, «температура» — значенням «36.6».

У разі застосування такого методу використовується вся інформація про пропущені значення, хоча це може помітно змінити результати.

Regression imputation / Регресійна імпутація

Оцінюються недостатні значення за допомогою регресії з використанням інших змінних як параметрів. Він працює так: потрібно зробити модель, яка передбачає значення колонки за даними з інших колонок, і заповнити прогалини тим, що вона передбачає.

Наприклад, людині, яка заробляє менше, ніж хотілося б, може бути незручно згадувати про свій дохід. Отже, значення змінної зарплати для такої людини не буде. Але якщо ми будемо заповнювати прогалини середнім значенням змінної, воно буде вищим, ніж її реальний заробіток. Так ми внесемо систематичну помилку до аналізу.

Автор: Олексій Симончук

Поділитися: