Що всередині black box AI та чому це виклик для безпеки, етики й довіри

Механізми, яких не бачить навіть розробники

Обсяг користі, яку приносить AI, прямо пропорційний кількості запитань, що він порушує. За буквально декілька років його існування ми вже побачили багато: плагіат текстів, зазіхання на інтелектуальну власність, спотворення фактів та сліпе копіювання мистецьких стилів. Достеменно невідомо, чому AI ухвалює різні рішення та йде наперекір усталеним інтернет-правилам.

Ця проблема починається з особливості побудови AI-систем. Їх часто будують за принципом black box, де вся «начинка» невидима для юзера. Іншими словами, комерційні AI-продукти не показують, як саме модель «думає», на які дані спирається та як ухвалює рішення.

Логічно, що це породжує недовіру, критику та навіть кенселінг. Аргументи прості: хто захоче довіритися пілоту літака, якщо про його стаж нічого невідомо, як і про сам літак?

Тому в цьому матеріалі збираємося навколо вогнища для страшилок (насправді для діп-дайву): поговоримо, що таке black box AI, що AI-компанії від нас приховують (не так багато насправді), чим він загрожує, як із цим борються та які варіанти розв’язання цієї проблеми розробляють уже зараз.

Коротко й по суті: що таке black box?

Black box AI — це тип штучного інтелекту, в якому механізм ухвалення рішень моделі невідомий або важко зрозумілий для користувачів. Глибокі нейронні мережі (DNN), трансформери або ансамблі (наприклад, XGBoost) обробляють вхідні дані через складні алгоритми, що складаються з численних параметрів.

Як результат, їхня поведінка і те, як вони приходять до своїх висновків, не піддаються простому поясненню. До прикладу, всім відомий ChatGPT не дає змоги зрозуміти, чому модель обрала саме таку відповідь. Навіть якщо така можливість з’явиться, без спеціальних інструментів аналізу це буде неймовірно складно або нереально.

На противагу цьому підходу є white box AI. Він передбачає, що модель є прозорою і зрозумілою. У таких моделях процес ухвалення рішень простий для інтерпретації. Наприклад, логістична регресія, лінійна регресія, дерева рішень (Decision Trees) або rule-based системи — моделі, де кожен крок обробки даних можна чітко простежити. Вони використовують прямі математичні зв’язки між вхідними даними та результатом, що робить їхню інтерпретацію доступною навіть без глибоких технічних знань.

Втім, є обмаль прозорих продуктів, які базуються на white box логіці. Серед них — Explainable Boosting Machine (EBM), модель від Microsoft, або What-If Tool від Google.

Джерело непрозорості: архітектури black box моделей

Основна причина непрозорості у black box AI — це складність архітектур, на яких базуються сучасні Machine Learning моделі. Вони працюють завдяки великій кількості параметрів, нелінійних перетворень і прихованих залежностей. Є кілька типових архітектур, які формують основу таких моделей.

Глибокі нейронні мережі (DNN)

Це моделі, які складаються з багатьох шарів — іноді сотень. Кожен шар поступово перетворює вхідні дані, ніби пропускаючи їх через серію фільтрів. Водночас використовують нелінійні функції, які роблять обчислення складнішими, але й дають змогу виявляти глибші закономірності.

Через велику кількість шарів і параметрів кожен окремий вплив на результат дуже малий і неочевидний. Але разом вони створюють складну «логіку», яку неможливо просто прочитати або пояснити. Щоб зрозуміти, чому модель зробила саме такий вибір, потрібні спеціальні техніки — наприклад, візуалізація внутрішніх шарів або аналіз градієнтів.

Рекурентні мережі (RNN, LSTM) і трансформери

Ці моделі працюють із послідовностями — наприклад, текстом, звуком або часовими рядами. Вони не просто аналізують кожен елемент окремо, а зважають на контекст — тобто попередні слова або події.

RNN та LSTM «пам’ятають» те, що було раніше, і використовують цю пам’ять у наступних кроках. Це робить їх потужними, але й непрозорими — важко сказати, які саме дані найбільше вплинули на підсумкове рішення.

Трансформери, як-от GPT або BERT, працюють ще складніше. Вони застосовують механізм уваги, що обчислює, на які частини вхідних даних варто звернути найбільше уваги. Наприклад, у реченні модель може вирішити, що якесь слово важливіше за інші. Але через величезну кількість взаємозв’язків навіть експертам важко зрозуміти, чому вона обрала саме такий варіант.

Ансамблі моделей

Ансамблі — це підхід, коли багато простіших моделей поєднуються в одну складну систему. Найчастіше це дерева рішень, що працюють як набори правил («якщо…, то…»).

До прикладу, існує Random Forest — алгоритм, що містить сотні дерев рішень, кожне з яких працює трохи по-своєму. Результат — це усереднене рішення всіх дерев.

Іншим прикладом є XGBoost — ще один потужний ансамблевий алгоритм, який будує послідовність дерев рішень, де кожне наступне дерево намагається виправити помилки попередніх. Це робить такі ансамблі дуже точними, але й складно зрозумілими. Навіть якщо окреме дерево можна прочитати, вся система разом занадто складна, щоб просто пояснити її поведінку.

Усі ці архітектури мають високу предиктивну здатність, особливо на складних, нерегулярних або багатовимірних даних. Проте ціною цього є втрата прозорості, через що моделі стають «чорними скриньками» навіть для своїх розробників.

Пояснення на рівні моделі: чому їх так важко інтерпретувати

Складність інтерпретації black box AI моделей починається на найнижчому рівні — рівні самої моделі та її структури. Навіть якщо ми знаємо, які дані потрапили на вхід і що вийшло на виході, простежити шлях до результату буває майже неможливо. Ось три головні причини, чому так відбувається.

Нелінійна трансформація простору ознак (features space)

Більшість сучасних моделей, зокрема нейронні мережі, застосовують нелінійні перетворення до вхідних даних. Це означає, що вони змінюють простір ознак, або ж features space, у складний, викривлений спосіб, у якому відстані, напрямки та співвідношення вже не мають звичного значення.

Наприклад, у задачі класифікації зображень модель може перетворити «округлість» і «контрастність» на абстрактні координати, які вже не мають очевидного сенсу. Візуалізувати й інтерпретувати такі простори дуже складно, особливо у випадках з великою кількістю вимірів (сотні або тисячі ознак).

Висока кількість параметрів — складність трасування рішення

Моделі, як-от GPT або великі CNN, можуть містити мільйони або навіть мільярди параметрів. Це з’єднання, зміщення, нормалізації — усе, що впливає на обчислення. Кожен окремий параметр змінює поведінку моделі, але він має мінімальний вплив і лише у взаємодії з іншими.

Зрештою простежити, які саме параметри призвели до конкретного рішення, майже неможливо. Це як намагатися зрозуміти, який гвинтик у двигуні забезпечив прискорення машини — відповідь лише в сукупній роботі всіх компонентів.

Відсутність семантичного значення векторів

У багатьох моделях, особливо в обробці природної мови, слова чи фрази перетворюються на вектори-embedding’и — набори чисел, які несуть «значення» для моделі. Але вони не мають очевидного сенсу для людини.

Наприклад, слово «собака» може перетворитися на вектор із 768 значень, і жодне з них не має конкретної інтерпретації («це означає лапи», «це означає хвіст» тощо).

Вектор відбиває контекст і зв’язки в багатовимірному просторі, який ми не можемо уявити. Через це пояснити, чому модель зробила те чи інше припущення, з огляду на embedding’и стає неймовірно складно.

Усі ці фактори разом формують ситуацію, де модель «працює», але пояснити, як саме — виклик навіть для досвідчених ML-інженерів. Тому розвиваються напрями explainable AI (XAI), які намагаються надати хоча б локальне або спрощене пояснення рішень таких систем.

Explainability як виклик

Explainability, або пояснюваність моделей — це здатність зрозуміло пояснити, як модель ухвалює рішення. Однак навіть із сучасними підходами це завдання із зірочкою, адже є низка серйозних обмежень:

Неможливість інтерпретації на глобальному рівні

Складні моделі, як-от глибокі нейронні мережі або ансамблі, часто не піддаються інтерпретації загалом. Ми можемо пояснити окреме рішення (локально), але зрозуміти повну логіку моделі неможливо. Це особливо критично, коли модель впливає на ухвалення рішень у чутливих сферах — у медицині, фінансах, правосудді.
Конфлікт між точністю й пояснюваністю

Зазвичай моделі з високою точністю складні й непрозорі. Натомість прості моделі — лінійна або логістична регресія — легко інтерпретуються, але програють у точності на складних даних. Це створює дилему: обирати точність чи зрозумілість?
Проблема довіри до пояснень

Навіть методи пояснення, як-от SHAP чи LIME, не гарантують істинного розуміння внутрішньої логіки моделі. SHAP, наприклад, базується на апроксимації, яку можна маніпулювати зміною фіч або структури даних. У результаті отримують правдоподібне, але оманливе пояснення.

Регуляторні вимоги

Оскільки black box — це найпоширеніша практика в сучасних AI-моделях, то хтось має нести відповідальність за його рішення. Особливо це актуально у сферах, де від моделі залежить здоров’я, доступ до послуг або особисті права. Тому пояснюваність перестає бути бажаною фічею, її починають вимагати на рівні законодавства і галузевих стандартів.

GDPR та «право на пояснення»

Загальний регламент із захисту даних (GDPR) гарантує громадянам «право на пояснення» (right to explanation), коли рішення ухвалюють автоматизовані системи. Це означає, що організація повинна пояснити людині:

чому система ухвалила те чи інше рішення;
які дані використано;
як це вплинуло на результат.

Це особливо важливо у неоднозначних випадках: за відмов у кредиті, медичних прогнозів або під час працевлаштування.

AI Act: прозорість для high-risk систем

У 2024 ЄС затвердив AI Act — перший у світі закон, що системно регулює використання штучного інтелекту. Для «високоризикових» систем (медицина, фінанси, судова система, освіта тощо) він вимагає:

пояснюваності рішень;
документування даних і процесів;
оцінки впливу на основні права людини.

Без дотримання цих вимог система не зможе вийти на ринок ЄС.

Індустріальні фреймворки: етика та відповідальність

Окрім законодавства, великі технологічні компанії також формують власні етичні стандарти для розробки AI-систем:

Responsible AI від Microsoft передбачає обов’язкову пояснюваність, контроль упередженості й участь людини в ухваленні рішень.
Trusted AI від IBM робить акцент на прозорості, відповідності нормам і можливості перевіряти моделі.

Поточні дослідження і перспективи

Попри те, що левова частка моделей залишається «чорними ящиками», дослідники активно шукають шляхи, як зробити їх прозорішими. Серед найцікавіших напрямів — нові типи моделей, які або спрощують інтерпретацію, або проєктуються так, щоб бути пояснюваними з самого початку. До прикладу, розробляють:

Моделі interpretable-by-design

Це моделі, які ще на етапі побудови орієнтовані на пояснюваність. Наприклад, ProtoPNet візуально зіставляє частини зображення з прототипами, які модель вивчила. Це допомагає побачити, на які частини зображення вона спиралася, щоб ухвалити рішення. Це схоже на те, як люди впізнають об’єкти за знайомими ознаками.
Attention-механізми з візуалізацією

У трансформерах (наприклад, BERT або GPT) механізм attention дає змогу моделі «зосереджуватися» на певних словах або частинах тексту. Це створює можливість для візуалізації: можна подивитися, які саме слова мали найбільший вплив на прогноз.

Хоча це не завжди гарантує повну інтерпретованість, такий підхід допомагає наблизити розуміння моделі.
Контекстні embedding’и із семантичним зворотним мапуванням

У завданнях NLP (обробки мови) використовують вектори (embedding’и) для представлення значень слів у контексті. Дослідники працюють над методами, які дають змогу «повернутися» з векторного простору до зрозумілих людині концептів — наприклад, за допомогою зворотного мапування embedding’ів у ключові слова або фрази. Це відкриває шлях до пояснення, які семантичні ознаки вплинули на результат.

Висновки

Зараз ШІ постійно вчиться чогось нового — і що ближче він до нашого повсякденного життя, то більше запитань і хвилювань це спричиняє.

Розробники не зупиняються на «тривожно», а копають далі — намагаються зрозуміти, як усе це працює. Схоже, explainable AI рухається в бік змішаних рішень: моделі стають не менш сильними, але водночас зрозумілішими для людей.

Оскільки ШІ живиться даними, то без них ні пояснити, ні зрозуміти нічого не вийде. Якщо дивитися песимістично — головне, щоб розуміння не відставало від темпів розвитку. Якщо оптимістично — час починати працювати з даними самостійно. Курси з Python, SQL та аналітики — вже під рукою.

Автор: Павло Кірноз

Поділитися: