Не верь глазам своим

Как алгоритмы генерируют визуальный контент.

Нейросети давно работают с изображениями. Замена лиц, успешная имитация картин и даже полотно, проданное на аукционе, — результаты впечатляют все больше. Рассказываем, что уже умеют делать алгоритмы.

Кради как художник

В 2018 году нейросеть создала картину «Портрет Эдмона Белами», которую продали на аукционе Christie’s за $432 000. Нейронку обучили на наборе из 15000 портретов ХIV-ХХ веков. До аукциона прогнозировали, что картина будет стоить $7-10 000.

Портрет, написанный программой / BBC

Но за творения алгоритмов не обязательно платить. Онлайн-сервисы могут генерировать картины в стиле знаменитых художников по фото.

Ван Гог и нейросети

В 2015 году в статье «Нейронный алгоритм художественного стиля» описали, как сверточную нейросеть можно использовать для генерации изображения, сочетающего «содержание» одной картинки и «стиль» другой. Авторы проиллюстрировали работу алгоритма, обработав фотографию немецкого города Тюбинген в стиле пяти классических картин.

Пейзажи Тюбингена, стилизованные под картины Тернера, Ван Гога, Мунка, Пикассо, Кандинского / Arxiv

Нейросети, которые умеют распознавать объекты, учатся отделять контент от стиля. То есть нейросеть использует одни слои для извлечения «содержимого» изображения, а другие — для извлечения «стиля» в процессе синтеза.

Каждый уровень сверточной нейросети изучает все более сложные элементы изображения. Верхние слои — простые элементы (линии и края объектов), более глубокие слои — геометрические фигуры (квадраты, круги, треугольники). Последующие слои нейронки распознают закономерности сложных узоров и текстур.

Примеры распознавания объектов изображения слоями нейросетей / Medium

Можно сказать, что алгоритм изучает стиль изображения. Если в качестве исходного изображения взять белый холст, то алгоритм нарисует «стиль» картины. Вот визуализация работы пяти слоев нейросети, которые изучают стиль полотна Ван Гога «Звездная ночь».

Визуаизация стилей разными слоями нейросети / Subsubroutine

Картины импрессионистов, которые наполнены фактурами и узорами, алгоритм распознаёт и копирует очень точно. Стиль Ван Гога применим практически к любому исходному изображению.

Обработка фото в стиле Ван Гога / Subsubroutine

Кроме того, нейронки точно различают и передают художественные средства: уголь, карандаш, акриловые и акварельные краски.

Обработка фото под картину маслом / Subsubroutine

Нейросеть, которая предсказывает изображение

Алгоритм Image GPT дорисовывает одну половину изображения на основе другой. Изначально его использовали для генерации текста на естественных (человеческих) языках. В них существуют закономерности построения текста. Например, ответ чаще всего следует за вопросом. Между частями изображений тоже есть подобная взаимосвязь. Нейронка может научиться предугадывать следующий пиксель в матрице на основе известных или ранее предсказанных пикселей.

В крайнем правом столбце — полные исходные изображения; в центре — предположения нейросети / Openai

Нужны новые лица

Другая визуальная сфера применения алгоритмов — генерация и замена фото и видео с изображением людей.

Фотографии людей, которых не существовало

В Nvidia создали нейросеть, которая придумывает человеческие лица, похожие на фото реальных людей. Алгоритм замечает физиологические закономерности черт лица. Затем программа использует эти маркеры для создания фейков. В результате получаются портреты, почти не отличимые от фотографий реальных людей.

Портреты, сгенерированные искусственным интеллектом / Bgr

Нейросеть также используют для создания изображений несуществующих автомобилей, интерьеров и кошек (но эти изображения не всегда правдоподобны).

Deepfake: замена лиц на фото и видео

Deepfake — техника, накладывающая изображение лица одного человека на реальное видео другого. При помощи deepfake «дорисованный» человек говорит и меняет мимику, как герой в исходном видео. Для обучения такой нейросети нужно по меньшей мере 500 фотографий и видео, поэтому героями дипфейков часто становятся селебрити.

Источник: Arxiv

Deepfake — только инструмент. Использовать его можно и во благо. Одна из перспективных областей — кинематограф. Например, фанатам «Звездных войн» не понравилась компьютерная графика принцессы Леи, которую в фильме «Изгой-Один» вместо Кэрри Фишер сыграла Ингвильд Дейла. Вполне возможно, что Deepfake сделает сгенерированных актеров более похожими на свои реальные прототипы. Некоторые даже прогнозируют полную замену живых актеров графикой.

Вверху — актриса Ингвильд Дейла с контрольными маркерами на лице для фиксации мимики, внизу — кадр из фильма / Reddit

Алгоритм, который находит дипфейки

Исследователи из Индии создали алгоритм, который с точностью до 98,2% распознает фейковые видео.

Схема работы антидипфейк-алгоритма / Spie Digital Library

Разработанный классификатор определяет подлинность видео. Нейросеть обучили на наборе из 200 пар видеороликов (100 реальных и 100 дипфейков) с похожими друг на друга политиками (например, Дональд Трамп и Борис Джонсон). Все данные собрали на YouTube. Основное внимание уделили видео, на которых политик произносит речь — публичным выступлениям, интервью и докладам.

На основе нейросети планируют запустить инструмент FaceSwap video Inspector, который сможет находить дипфейки в режиме реального времени. Приложение будет состоять из пользовательского интерфейса и серверной части. Серверная часть — это предобученная нейросеть, которую пользователи смогут использовать, установив расширение в Google Chrome. Приложение сможет контролировать распространение фейковых видеороликов с политиками в соцсетях.

Автор: Мария Сорокина