ТЕСТУВАННЯ ТА ВАЛІДАЦІЯ АІ-МОДЕЛЕЙ
Пройдіть весь пайплайн системної перевірки якості АІ-моделей: від класичних ML — до LLM і RAG-систем
МАКСИМ КІЗІЦЬКИЙ
Machine Learning Engineer

КУРС ТЕСТУВАННЯ AI МОДЕЛЕЙ ДЛЯ ВАС, ЯКЩО ВИ…
ПРО КУРС
-
Тривалість: 23 заняття
-
Курсова робота:
-
ВЛАСНИЙ ПРОЄКТ ІЗ ТЕСТУВАННЯ AI-СИСТЕМИ
Моделі оновлюються — але ніхто не розуміє, чи стало краще: інженери дивляться лише на accuracy, LLM тестують «на око», а в продакшені все ламається на реальних кейсах.
Перетворіть АІ-перевірку на систему: фреймворки, метрики та інструменти, які дозволяють тестувати моделі так, щоб вони працювали стабільно не в теорії, а на практиці.
Для виконання курсового проєкту ми надаємо демо AI-систему, з якою ви працюватимете.
ПІСЛЯ КУРСУ ВИ
-
Побудуєте повний процес тестування AI-моделей — від pre-release перевірок до продакшн-моніторингу
-
Вмітимете виявляти галюцинації, нестабільність генерації, bias та edge-cases
-
Працюватимете з production-grade стандартами тестування: Promptfoo, DeepEval, Ragas, Evidently
-
Інтегруєте автоматизоване AI-тестування в CI/CD та MLOps-пайплайни
-
Зрозумієте, як оцінювати якість моделей в продакшені та відстежувати деградацію
-
Отримаєте чітку структуру та фреймворк AI-тестування, який можна одразу застосувати в команді або продукті

ДО ПРОГРАМИ КУРСУ ВХОДЯТЬ
-
СИСТЕМНЕ ТЕСТУВАННЯ AI-РІШЕНЬ
Опануєте підходи до перевірки класичних ML-моделей, LLM і RAG: навчитеся працювати з метриками, eval-наборами, регресіями, галюцинаціями, дрейфом і стабільністю.
-
АВТОМАТИЗАЦІЯ ТА ПРОДАКШН-ПРАКТИКИ
Інтегруєте AI QA в CI/CD, налаштуєте моніторинг якості в продакшені та розберетеся з контролем деградації, продуктивності й витрат.
-
БЕЗПЕКА ТА ВІДПОВІДАЛЬНИЙ AI
Розберетеся з red-teaming, захистом від prompt-інʼєкцій, тестуванням упередженості, explainability та human evaluation.
-
ФІНАЛЬНИЙ ПРОЄКТ
Наприкінці курсу спроєктуєте повноцінну систему тестування AI з автоматизованими eval-наборами, метриками та презентацією лектору і колегам по курсу.
лектор
МАКСИМ КІЗІЦЬКИЙ
Machine Learning Engineer у TemaBit, Fozzy Group
-
Має глибоку експертизу в Promptfoo, DeepEval, Ragas, LangSmith та Evidently AI.
-
У компанії TemaBit відповідає за повний цикл систем — від інференсу до моніторингу, впроваджує evaluation-фреймворки для RAG і детекцію галюцинацій.
-
Досяг 5× приросту швидкості інференсу, впровадив TTFT і P95/P99 latency для контролю продуктивності.
-
Працює над PhD-дослідженням з оцінювання LLM (українськомовні, багатомовні, мультимодальні задачі, запобігання галюцинаціям).
ПРОГРАМА ТЕСТУВАННЯ ТА ВАЛІДАЦІЇ АІ-МОДЕЛЕЙ
-
01 заняття04.05.2026 19:00
Вступ до тестування AI-систем
- Зрозумієте, чому тестування AI суттєво відрізняється від класичного QA
- Знатимете основні типи оцінювання AI-систем і зможете обирати відповідний під конкретний сценарій
- Орієнтуватиметеся в піраміді якості AI та розумітимете, на яких рівнях виникають ключові ризики
-
02 заняття06.05.2026 19:00
Архітектура AI-систем: що тестувати
- Навчитеся декомпозувати AI-систему на компоненти й прив’язувати тести до кожного з них
- Чітко розрізнятимете ML-, LLM- і RAG-пайплайни та їхні зони відповідальності
- Зможете визначати критичні точки ризику в архітектурі та використовувати їх для побудови тестової стратегії
-
03 заняття11.05.2026 19:00
Таксономія AI-фейлів
- Навчитеся системно класифікувати AI-фейли
- Дізнаєтеся про реальні причини відмов моделей, LLM і систем загалом
- Зможете застосовувати таксономію для аналізу реальних інцидентів та запобігання повторним збоям
-
04 заняття13.05.2026 19:00
Метрики ML: коли вони брешуть
- Навчитесь обирати метрики, які реально відображають якість моделі
- Розумітимете обмеження accuracy та інших стандартних метрик
- Зможете аналізувати результати моделей в розрізі сегментів та бізнес-впливу
-
05 заняття18.05.2026 19:00
Регресійне тестування моделей
- Зможете побудувати процес контролю якості при кожному оновленні моделі
- Навчитеся коректно порівнювати версії моделей з урахуванням варіативності даних і статистичної значущості
- Розумітимете, як інтерпретувати результати A/B-тестів у продакшені
-
06 заняття20.05.2026 19:00
Якість даних та виявлення дрейфу
Результат:
- Навчитеся виявляти проблеми з якістю даних ще до того, як вони вплинуть на модель
- Зможете розрізняти типи дрейфу та OOD-випадки й використовувати їх як сигнали ризику
- Освоїте практичні інструменти для моніторингу якості даних у часі
-
07 заняття25.05.2026 19:00
Специфіка тестування LLM
Результат:
- Розберетеся з недетермінізмом LLM і навчитеся враховувати його під час тестування
- Зможете тестувати роботу моделей з довгим контекстом і streaming-відповідями
- Навчитеся налаштовувати локальне та API-середовище для відтворюваних тестів
-
08 заняття27.05.2026 19:00
Тестування промптів та генеративної поведінки LLM
- Навчитеся будувати тестовані та версіоновані промпти замість ручних експериментів
- Зможете створювати еталонні набори для генеративних задач
- Перевірятимете стабільність, коректність і структурованість відповідей LLM
-
09 заняття01.06.2026 19:00
Тестування багатокрокових діалогів
- Навчитеся проєктувати сценарії тестування складних multi-turn діалогів
- Зможете перевіряти збереження контексту, пам’яті й логічної послідовності відповідей
- Виявлятимете типові проблеми чат-ботів у довгих розмовах
-
10 заняття03.06.2026 19:00
Метрики та автоматизоване оцінювання LLM
- Навчитесь об’єктивно оцінювати якість LLM за допомогою різних типів метрик
- Зможете комбінувати еталонні та безеталонні підходи залежно від задачі
- Контролюватимете стабільність відповідей та коректність структурованих виходів
-
11 заняття08.06.2026 19:00
Багатомовне та українськомовне тестування
Результат:
- Навчитеся тестувати LLM з урахуванням специфіки української мови
- Зможете виявляти суржик, русизми, помилки відмінювання та code-switching
- Побудуєте спеціалізовані eval-набори для українськомовних і багатомовних сценаріїв
-
12 заняття10.06.2026 19:00
Архітектура RAG і точки відмов
Результат:
- Навчитеся знаходити, на якому етапі RAG-системи виникають помилки
- Розумітимете типові причини галюцинацій в RAG
- Зможете формувати тестові гіпотези для покращення retrieval і chunking
-
13 заняття15.06.2026 19:00
Метрики RAG та оцінювання
Результат:
- Навчитеся вимірювати якість RAG-системи від пошуку до фінальної відповіді
- Зможете інтерпретувати метрики контексту, пошуку та генерації
- Проводитимете повноцінну end-to-end оцінку RAG
-
14 заняття17.06.2026 19:00
Виявлення та зменшення галюцинацій
- Навчитеся системно виявляти галюцинації, а не лише фіксувати їх постфактум
- Зможете перевіряти правдивість тверджень і коректність цитувань
- Проєктуватимете негативні сценарії та механізми безпечної відмови
-
15 заняття24.06.2026 19:00
Безпека LLM та Red-Teaming
- Навчитеся проводити red-teaming AI-систем за зрозумілою методологією
- Зможете виявляти prompt-інʼєкції, jailbreak-атаки та ризики витоку даних
- Формуватимете структуровані звіти з ризиками та рекомендаціями
-
16 заняття29.06.2026 19:00
Упередженість, справедливість і пояснюваність
- Навчитеся виявляти різні типи упередженості в AI-системах
- Зможете застосовувати інструменти пояснюваності для аналізу рішень моделей
- Балансуватимете між точністю, справедливістю і стабільністю
-
17 заняття01.07.2026 19:00
Модульне та інтеграційне тестування для AI
- Навчитеся писати unit- та integration-тести для AI-компонентів
- Зможете поєднувати детерміністичні та імовірнісні перевірки
- Використовуватимете snapshot testing і mocking для стабільних тестів
-
18 заняття06.07.2026 19:00
Огляд фреймворків оцінювання
- Навчитеся проєктувати масштабовані системи оцінювання AI
- Зрозумієте життєвий цикл еталонних датасетів
- Зможете застосовувати eval-driven підхід для контролю регресій
-
19 заняття08.07.2026 19:00
CI/CD та моніторинг AI-систем
- Навчитесь інтегрувати тести AI в CI/CD-пайплайни
- Зможете налаштовувати quality gates і блокувати ризикові деплої
- Контролюватимете деградацію якості в продакшені
-
20 заняття13.07.2026 19:00
Продуктивність і контроль витрат LLM у продакшені
Результат:
- Навчитеся читати й інтерпретувати latency та cost-метрики
- Зможете виявляти регресійне зростання витрат
- Оцінюватимете вплив архітектурних рішень на продуктивність
-
21 заняття15.07.2026 19:00
Протоколи людської оцінки (Human Evaluation)
- Навчитеся проєктувати коректні процеси людської оцінки
- Зможете працювати з метриками узгодженості анотацій
- Інтегруватимете human-in-the-loop як частину AI-систем
-
22 заняття20.07.2026 19:00
Проєктування процесу AI QA
- Навчитеся будувати AI QA як частину продуктового процесу
- Зможете створювати test-плани та чек-листи з урахуванням ризиків
- Ефективно комунікуватимете результати оцінювання зі стейкхолдерами
-
23 заняття22.07.2026 19:00
Роль AI QA інженера і захист курсових робіт
- Презентуєте власну систему тестування AI (LLM чат-бот, RAG-система або ML-класифікатор) з автоматизованими eval-наборами та метриками
- Отримаєте фідбек від лектора та рекомендації щодо розвитку у сфері
реєстрація
Пройдіть комплексне навчання тестуванню AI моделей та побудуйте повноцінну систему: від аналізу ризиків — до моніторингу в продакшені