Как Cyberpunk 2077 изменил общение персонажей в играх
Эмоции, управляемые мышцами, и поддержка десяти языков.
10 декабря вышла игра Cyberpunk 2077. Ее сделала компания CD Projekt. Это польский издатель, который выпустил игру «Ведьмак 3: Дикая охота».
Cyberpunk 2077 представили в 2012 году. Игра стала легендарной еще до выхода: ее обсуждали, изучали мир и персонажей. В ней принял участие даже Киану Ривз: в игре есть герой с его внешностью, а сам актер был на презентации Cyberpunk 2077 в 2019 году. Релиз игры несколько раз переносился. После ее долгожданного выхода объясняем, в чем достижение CD Projekt.
Что произошло
«Ведьмак» показал, что игры могут быть полны драматургии, интересных историй, различных вариантов выбора персонажа. А все действия при этом происходят в открытом мире. Игроку не нужно идти по сюжету, он может выполнять различные квесты и просто жить в игре. На это же делает упор и Cyberpunk 2077. В игре более 200 часов оригинального контента. Чтобы она выглядела максимально реалистично, захватывать должны не только истории и диалоги, но и их техническая реализация.
В игре использовали новую технологию, которая улучшила систему общения персонажей. Задача технологии — показать движения губ и эмоции на лице каждого героя. К тому же, все это должно работать на десяти языках без подключения технологии захвата лица. Здесь разработчикам помогла компания JALI. Их нейросеть позволяет получить реалистичное движение лицевых мускулов, а также реагирует на разные стили речи и делает персонажей живыми.
Зачем решили создать новую технологию
Когда закончилась работа над «Ведьмаком», у студии уже была своя система синхронизации движения губ — липсинк. Но разработчики задумались, как можно ее улучшить, не тратя сотни часов на создание анимации. Вот что решили сделать:
#1. Использовать систему во всем открытом мире для каждого персонажа.
#2. Создать систему эмоций, управляемую мышцами.
#3. Осуществить поддержку десяти языков.
Четыре года назад техдир по работе с персонажами в CD Projekt Red Матош Поплавски нашел статью о генерации липсинк, которую написали основатели компании JALI. Они говорили об уникальной функции, которая как раз подходила для Cyberpunk 2077. К тому же, она давала возможность поддерживать любые стили речи, будь то шепот или крик.
Матош написал в JALI. Как оказалось, у компании не было игры, где можно было бы применить решение. «Мы договорились о сотрудничестве, чтобы реализовать технологию и превратить ее в ААА-игру с открытым миром. Так, мы создали систему, меняющую подход к созданию эмоций у персонажей», — вспоминает Поплавски.
Как проходил процесс создания
Вот как это выглядело:
Такие анимации создают в несколько этапов: берут образец речи в нужном стиле, а затем объединяют моргание и движение глаз. Потом — добавляют эмоции, которые появляются на лице во время разговора: движение бровей, шеи и головы.
Входящие данные системы:
#1. Запись голоса.
#2. Транскрипция текста.
#3. Теги, формирующие привязку фонем.
#4. Аудиоанализ. Он дает информацию о скорости и тоне речи.
Алгоритм понимает, какие положения челюсти, губ и языка нужны для конкретной фонемы.
Обычно при создании игр мимика лица и синхронизация движений губ реализуются отдельно. Но речь настоящих людей сложнее, чем механическое соединение положений фонем. Здесь есть много экспрессивности, которая отражена в речи героя.
В этом ролике видно, как персонаж произносит фразу без эмоций, а потом взрывается:
Каждая фонема на человеческом лице выглядит как сочетание движения губ и челюсти. Ими управляет эквалайзер от JALI.
Также важно правильно анимировать глаза. Сделать модель живой помогают естественное движение глаз и моргание. Люди моргают, чтобы смочить глаза. Вторая причина — когнитивная: человек моргает, когда мыслит.
На модель игры влияют другие параметры. Это аудиоанализ записи, анализ лексики транскрипта и время, которое прошло с предыдущего моргания. Их сумма позволяет понять, когда персонаж вновь моргнет.
Все персонажи игры говорят на десяти языках благодаря трем элементам. Это:
#1. Акустическая модель. Ее цель — предсказать фонемы персонажа на основе голосового и текстового исполнения слов. Каждая модель обучена на наборе данных, состоящих из десятков (иногда — сотен) часов записей голоса и текстов на разных языках.
#2. Словарь произношений. Это таблица лексем, которая состоит из всех возможных способов произношения слов.
#3. Модель «графема-фонема». Задача — правильно произносить слова, которых нет в словаре.
Как это выглядит на практике:
По словам разработчиков компании Vortex Cannon Entertainment, эта технология важна не только для индустрии игр, но и для фильмов, виртуальных концертов, персональных виртуальных помощников и модельного бизнеса. Нюансы мимики располагают людей к неодушевленному персонажу.
Обложка: Cyberpunk 2077