Как Cyberpunk 2077 изменил общение персонажей в играх

Эмоции, управляемые мышцами, и поддержка десяти языков.

10 декабря вышла игра Cyberpunk 2077. Ее сделала компания CD Projekt. Это польский издатель, который выпустил игру «Ведьмак 3: Дикая охота».

Cyberpunk 2077 представили в 2012 году. Игра стала легендарной еще до выхода: ее обсуждали, изучали мир и персонажей. В ней принял участие даже Киану Ривз: в игре есть герой с его внешностью, а сам актер был на презентации Cyberpunk 2077 в 2019 году. Релиз игры несколько раз переносился. После ее долгожданного выхода объясняем, в чем достижение CD Projekt.

Что произошло

«Ведьмак» показал, что игры могут быть полны драматургии, интересных историй, различных вариантов выбора персонажа. А все действия при этом происходят в открытом мире. Игроку не нужно идти по сюжету, он может выполнять различные квесты и просто жить в игре. На это же делает упор и Cyberpunk 2077. В игре более 200 часов оригинального контента. Чтобы она выглядела максимально реалистично, захватывать должны не только истории и диалоги, но и их техническая реализация.

В игре использовали новую технологию, которая улучшила систему общения персонажей. Задача технологии — показать движения губ и эмоции на лице каждого героя. К тому же, все это должно работать на десяти языках без подключения технологии захвата лица. Здесь разработчикам помогла компания JALI. Их нейросеть позволяет получить реалистичное движение лицевых мускулов, а также реагирует на разные стили речи и делает персонажей живыми.

Зачем решили создать новую технологию

Когда закончилась работа над «Ведьмаком», у студии уже была своя система синхронизации движения губ — липсинк. Но разработчики задумались, как можно ее улучшить, не тратя сотни часов на создание анимации. Вот что решили сделать:

#1. Использовать систему во всем открытом мире для каждого персонажа.

#2. Создать систему эмоций, управляемую мышцами.

#3. Осуществить поддержку десяти языков.

Четыре года назад техдир по работе с персонажами в CD Projekt Red Матош Поплавски нашел статью о генерации липсинк, которую написали основатели компании JALI. Они говорили об уникальной функции, которая как раз подходила для Cyberpunk 2077. К тому же, она давала возможность поддерживать любые стили речи, будь то шепот или крик.

Матош написал в JALI. Как оказалось, у компании не было игры, где можно было бы применить решение. «Мы договорились о сотрудничестве, чтобы реализовать технологию и превратить ее в ААА-игру с открытым миром. Так, мы создали систему, меняющую подход к созданию эмоций у персонажей», — вспоминает Поплавски.

Как проходил процесс создания

Вот как это выглядело:

Такие анимации создают в несколько этапов: берут образец речи в нужном стиле, а затем объединяют моргание и движение глаз. Потом — добавляют эмоции, которые появляются на лице во время разговора: движение бровей, шеи и головы.

Входящие данные системы:

#1. Запись голоса.

#2. Транскрипция текста.

#3. Теги, формирующие привязку фонем.

#4. Аудиоанализ. Он дает информацию о скорости и тоне речи.

Алгоритм понимает, какие положения челюсти, губ и языка нужны для конкретной фонемы.

Обычно при создании игр мимика лица и синхронизация движений губ реализуются отдельно. Но речь настоящих людей сложнее, чем механическое соединение положений фонем. Здесь есть много экспрессивности, которая отражена в речи героя.

В этом ролике видно, как персонаж произносит фразу без эмоций, а потом взрывается:

Каждая фонема на человеческом лице выглядит как сочетание движения губ и челюсти. Ими управляет эквалайзер от JALI.

Также важно правильно анимировать глаза. Сделать модель живой помогают естественное движение глаз и моргание. Люди моргают, чтобы смочить глаза. Вторая причина — когнитивная: человек моргает, когда мыслит.

На модель игры влияют другие параметры. Это аудиоанализ записи, анализ лексики транскрипта и время, которое прошло с предыдущего моргания. Их сумма позволяет понять, когда персонаж вновь моргнет.

Все персонажи игры говорят на десяти языках благодаря трем элементам. Это:

#1. Акустическая модель. Ее цель — предсказать фонемы персонажа на основе голосового и текстового исполнения слов. Каждая модель обучена на наборе данных, состоящих из десятков (иногда — сотен) часов записей голоса и текстов на разных языках.

#2. Словарь произношений. Это таблица лексем, которая состоит из всех возможных способов произношения слов.

#3. Модель «графема-фонема». Задача — правильно произносить слова, которых нет в словаре.

Как это выглядит на практике:

По словам разработчиков компании Vortex Cannon Entertainment, эта технология важна не только для индустрии игр, но и для фильмов, виртуальных концертов, персональных виртуальных помощников и модельного бизнеса. Нюансы мимики располагают людей к неодушевленному персонажу.

Обложка: Cyberpunk 2077

Автор: Алексей Симончук