Не вір очам своїм

Як алгоритми генерують візуальний контент

Нейромережі давно працюють із зображеннями. Заміна облич, успішна імітація картин і навіть полотно, продане на аукціоні, — результати вражають дедалі більше. Розповідаємо, що вже вміють робити алгоритми.

Кради як художник

У 2018 році нейромережа створила картину «Портрет Едмона Беламі», яку продали на аукціоні Christie’s за $432 000. Нейронку навчили на наборі з 15 000 портретів XIV–XX століть. До аукціону прогнозували, що картина коштуватиме $7 000–10 000.

Портрет написаний програмою / BBC

Але за творіння алгоритмів не обов’язково платити. Онлайн-сервіси можуть генерувати картини в стилі знаменитих художників за фото.

Ван Гог і нейромережі

У 2015 році в статті «Нейронний алгоритм художнього стилю» описали, як згорткову нейромережу можна використати для генерації зображення, що поєднує «зміст» однієї картинки та «стиль» іншої. Автори проілюстрували роботу алгоритму, обробивши фотографію німецького міста Тюбінген у стилі п’яти класичних картин.

Краєвиди Тюбінгена, стилізовані під картини Тернера, Ван Гога, Мунка, Пікассо, Кандінського / Arxiv

Нейромережі, які вміють розпізнавати об’єкти, вчаться відокремлювати контент від стилю. Тобто нейромережа застосовує одні шари для вилучення «вмісту» зображення, а інші — для вилучення «стилю» в процесі синтезу.

Кожен рівень згорткової нейромережі вивчає дедалі складніші елементи зображення. Верхні шари — прості елементи (лінії та краї об’єктів), глибші шари — геометричні фігури (квадрати, кола, трикутники). Наступні шари нейронки розпізнають закономірності складних візерунків і текстур.

Приклади розпізнавання об'єктів зображення шарами нейромереж

Можна сказати, що алгоритм вивчає стиль зображення. Якщо як вихідне зображення взяти біле полотно, то алгоритм намалює «стиль» картини. Ось візуалізація роботи п’яти шарів нейромережі, які вивчають стиль полотна Ван Гога «Зоряна ніч».

Візуалізація стилів різними шарами нейромережі / Subsubroutine

Картини імпресіоністів, які наповнені фактурами й візерунками, алгоритм розпізнає і копіює дуже точно. Стиль Ван Гога можна застосувати майже до будь-якого вихідного зображення.

Обробка фото у стилі Ван Гога / Subsubroutine

Крім того, нейронки точно розрізняють і передають художні засоби: вугілля, олівець, акрилові та акварельні фарби.

Обробка фото під картину олією / Subsubroutine

Нейромережа, яка передбачає зображення

Алгоритм Image GPT домальовує одну половину зображення на основі іншої. Спочатку його використовували для генерації тексту природними (людськими) мовами. У них існують закономірності побудови тексту. Наприклад, відповідь найчастіше йде за запитанням. Між частинами зображень теж є подібний взаємозв’язок. Нейронка може навчитися передбачати наступний піксель у матриці на основі відомих або раніше передбачених пікселів.

У крайньому правому стовпці повні вихідні зображення; в центрі - припущення нейромережі / Openai

Потрібні нові обличчя

Інша візуальна сфера застосування алгоритмів — генерація і заміна фото й відео із зображенням людей.

Фотографії людей, яких не існувало

У NVIDIA створили нейромережу, яка вигадує людські обличчя, схожі на фото реальних людей. Алгоритм помічає фізіологічні закономірності рис обличчя. Потім програма задіює ці маркери для створення фейків.

У результаті виходять портрети, які майже не відрізняються від фотографій реальних людей.

Портрети, створені штучним інтелектом / Bgr

Нейромережу також використовують для створення зображень автомобілів, інтер’єрів і кішок, яких не існує (але вони не завжди правдоподібні).

Deepfake: заміна облич на фото й відео

Deepfake — техніка, що накладає зображення обличчя однієї людини на реальне відео іншої. За допомогою deepfake «домальована» людина говорить і змінює міміку, як герой у вихідному відео. Для навчання такої нейромережі потрібно щонайменше 500 фотографій і відео, тому героями дипфейків часто стають селебриті.

Джерело: Arxiv

Deepfake — тільки інструмент. Використовувати його можна і на благо. Одна з перспективних галузей — кінематограф. Наприклад, фанатам «Зоряних воєн» не сподобалася комп’ютерна графіка принцеси Леї, яку у фільмі «Бунтар Один» замість Керрі Фішер зіграла Інгвільд Дейла. Цілком можливо, що Deepfake зробить згенерованих акторів більш схожими на свої реальні прототипи. Дехто навіть прогнозує повну заміну живих акторів графікою.

Вгорі – актриса Інгвільд Дейла з контрольними маркерами на обличчі для фіксації міміки, внизу – кадр з фільму / Reddit

Алгоритм, який знаходить дипфейки

Дослідники з Індії створили алгоритм, який з точністю до 98,2 % розпізнає фейкові відео.

Схема роботи антидипфейк-алгоритму / Spie Digital Library

Розроблений класифікатор визначає справжність відео. Нейромережу навчили на наборі з 200 пар відеороликів (100 реальних і 100 дипфейків) зі схожими один на одного політиками (наприклад, Дональд Трамп і Борис Джонсон). Усі дані зібрали на YouTube. Основну увагу приділили відео, на яких політик виголошує промову: публічним виступам, інтерв’ю та доповідям.

На основі нейромережі планують запустити інструмент FaceSwap Video Inspector, який здатний знаходити дипфейки в режимі реального часу. Застосунок складатиметься з користувацького інтерфейсу і серверної частини. Серверна частина — це переднавчена нейромережа, якою користувачі зможуть послуговуватися, встановивши розширення в Google Chrome. Застосунок контролюватиме поширення фейкових відеороликів з політиками в соцмережах.

Автор: Марія Сорокина

Поділитися: