Нейросети в кино

Алгоритмы подбирают каст и пишут сценарии.

Благодаря нейросетям видео о Нью-Йорке 1911 года можно посмотреть в цвете и высоком разрешении. Но алгоритмы помогают не только реставрировать старые фильмы. Нейросети используют на всех этапах кинопроизводства — для предсказания кассовых сборов, подбора актеров, создания звуковых эффектов. 

Рассказываем, как алгоритмы меняют киноиндустрию.

Считаем кассовые сборы
 

Warner Brothers стала первой большой киностудией, которая начала применять машинное обучение при планировании съемок. В январе 2020 она подписала соглашение о сотрудничестве со стартапом Cinelytic, который также работает со студией STX Entertainment. Он предоставляет ПО, которое анализирует прокатные показатели фильмов.

Для обучения нейросети в Cinelytic загрузили данные о кассовых сборах фильмов, показах на платных каналах, количестве DVD-копий, а также популярности картин на пиратских файлообменниках. Затем информацию сгруппировали по трем категориям: актеры, режиссеры и жанры. 

Система анализирует 19 факторов, которые влияют на продвижение фильма и показывает, как каждый фактор меняет прогноз. Например, что случится с кассовыми сборами, если заменить актера в главной роли или сократить продолжительность фильма.

В стартапе подчеркивают, что Cinelytic не вмешивается в сценарий или творческую часть. Это бизнес-инструмент, который помогает оптимизировать расходы. 

В Голливуде сейчас ставят на фильмы с дорогими спецэффектами и франшизы — спрос на них легче анализировать. Но Cinelytic может указать продюсерам, как построить маркетинг или провести кастинг, чтобы дать шанс артхаусным или экспериментальным фильмам. 

Предсказать можно даже отзывы критиков. Нейросети часто используют для прогнозирования фаворитов «Оскара». Например, компания BigML проанализировала 1288 фильмов с 2000 по 2019 год, учитывая рейтинги на порталах iMDB и Metascore, а также наличие других кинонаград, например, премий BAFTA и «Золотой глобус». Нейросеть определила 5 из 8 победителей. 

Алгоритмы системы Bing от Microsoft тоже делают прогнозы и предсказывает лауреатов Оскара. В 2013 году Bing угадал 19 из 24 победителей, в 2014 году улучшил точность до 21 из 24, а в 2018 году назвал 16 лауреатов из 17 (точность прогноза составила 94%).

Lights, camera, data loading
 

Самое известное применение нейросетей на съемках — технология замены лиц deepfake. Она помогает создавать сцены с умершими актерами или менять возраст героев, как это делали в киновселенной Marvel или в «Ирландце» Скорсезе. Действие «Ирландца» охватывает 50 лет, поэтому главные герои появляются в кадре в разном возрасте. Но подход режиссера исключал мокап или сцены с применением хромакея.

Поэтому для обработки фильма создали программу Flux, которая собирала кадры и создавала маски для лиц актеров. Чтобы «омолодить» Де Ниро, Пачино и Пеши, команда создала каталоги для изображений отдельных частей лица (глаза, носы, скулы). Эти каталоги сравнивали с кадрами из фильмов, где актеры играли, когда были в соответствующем возрасте. Также для проекта разработали нейросеть, которая пересматривала архив и находила идеальное соответствие. В итоге постпродакшеном фильма занимались два года, а бюджет картины вырос.

Существуют также ПО, которое упрощает создание визуальных эффектов. Компания Digital Domain, сооснователь которой — режиссер Джеймс Кэмерон, использует нейросети для запечатления особенностей движений и речи актеров. Компания записывает все возможные выражения лица десятками камер, используя несколько сотен источников света. Затем информацию обрабатывают, и Digital Domain воссоздает в цифровом виде образ актера. Среди известных работ — внешность Таноса из «Мстителей» или лицо Брэда Питта в разных возрастах для «Загадочной истории Бенджамина Баттона».

Изменения происходят и в звуковом дизайне. Сотрудники MIT создали искусственный интеллект, который способен угадать и сгенерировать звук из кадров видео. Ученые надеются применять ИИ для обучения роботов, но также отмечают, что его можно использовать для телевидения и кино. Большинство звуковых эффектов и «шумов» на самом деле происходят не в кадре, а записываются в студии.

На видео без звука человек стучит по дереву или шуршит листьям, а нейросеть распознает, что происходит, и подбирает идентичное звучание. Для создания технологии в нейросеть загрузили почти 1 тыс. роликов, в которых люди взаимодействуют с материалами. Нейросети скормили свыше 46 тыс. действий, которые разметили в зависимости от места, способа прикосновения и его типа (царапание, удар, трение). Чтобы проверить эффективность алгоритма, создатели провели онлайн-опрос. Участники посмотрели видео с естественным звуком и звуком, созданным ИИ. В результате в 40% случаев люди не отличали сгенерированные звуки от настоящих. 

Искусственный интеллект может и сам создавать сценарии и снимать фильмы. 

Самый известный «машинный режиссер» — нейросеть Бенджамин. Она написала сценарий, диалоги и подобрала для кадров выражения лиц актеров, а потом смонтировала фильм за 48 часов из тысяч эпизодов других картин. Получился фильм ужасов Zone Out. Он вышел в 2018 году, но не отличался понятным сюжетом. 

В 2020 году украинский программист Владимир Алексеев тоже создал фильм используя только нейросети. С помощью нейросети GPT-2 сгенерировал текст, а саундтрек сделала программа JukeBox, он создал фильм «Пустая комната».

Постпродакшн и стриминги
 

Кинокомпания 20th Century Fox использует нейросеть Merlin Video для подбора кадров трейлера. Система ищет ключевые элементы в трейлере (машины, деревья, люди, взрывы) и отмечает частоту их появления. Также Merlin анализирует доминирующие цвета, скорость смены кадров и то, каким планом снят трейлер, что помогает нейросети определить жанр фильма. Затем Merlin сравнивает видео с другим трейлером. Если совпадений много, нейронка предоставляет список лент, которые сняты в подобном стиле и тоже могут понравиться зрителю. 

Стриминговые сервисы используют машинное обучение для улучшения алгоритмов рекомендаций. Netflix внедрил ML еще в 2006 году. Об эффективности такого подхода говорит то, что 80% видео на сервисе просмотрено из-за системы рекомендаций, а не по конкретному запросу пользователя.

Большинство рекомендаций основаны на двух типах данных: оценки и поведение потребителя (например, как долго он смотрел сериал, в какое время, сколько серий). Netflix делит пользователей на 2000 групп. Кроме алгоритма подбора, пользователи получают персонализированные постеры к сериалам и фильмам, а также в описании продукта кадры из передач подбирают, проанализировав технические показатели картинок (яркость, насыщенность, контраст) и эстетические (композиционное равновесие). 

У пользователей Hulu есть больше возможностей управлять алгоритмами поиска. В мобильном приложении стриминга можно исключать содержимое из повторных рекомендаций, а также удалять фильм из истории просмотров. Тогда нейросеть Hulu забудет, что клиент его уже смотрел.

Стриминговый сервис Disney+ запустился только в 2019 году, но у него есть преимущества перед проектами, которые давно на рынке. В октябре 2020 года Disney объявил о реорганизации бизнеса: теперь приоритетом будет онлайн-стриминг, а не премьеры в кинотеатрах. Disney принадлежит несколько киностудий, телеканалы (ABS, ESPN), парки развлечений и отели. Это позволяет собирать гораздо больше информации о поведении клиентов и объединять предпочтения целой семьи, не ограничиваясь данными о просмотрах. Пока сложно судить, насколько это поможет Disney+ создать уникальные рекомендации, но у других стримингов нет возможности собрать такие данные.

Обложка: Pinterest