Добавление эмоционального контроля в аудиоподделки

Одним из критических ограничений существующих дипфейков на основе звука является необходимость большего контроля стилистических атрибутов. В идеале нам хотелось бы изменить эти аспекты, например, сделать сгенерированное видео веселым, а не грустным или использовать стиль речи конкретного актера. READ Avatars стремится сделать именно это, модифицируя существующие высококачественные, индивидуализированные модели для работы с прямым контролем над стилями.

В прошлом я написал несколько постов в блоге, посвященных дипфейк-моделям, и этот имеет для меня особое значение, поскольку он мой собственный. Работа только что была принята на BMVC в этом году, и это моя первая принятая статья! В этой статье я расскажу о мотивации, интуиции и методологии работы.

Что такое стиль?

Первое, с чего следует начать при рассмотрении стилистического контроля, — это спросить, что именно подразумевается под стилем. Ответ, который я обычно даю, — это своего рода отговорка: стиль — это все в наших данных, что не считается контентом. Может показаться, что это просто переносит определение с одного слова на другое, но на самом деле это облегчает задачу. В контексте дипфейков на основе звука контентом является сама речь, движения губ, соответствующие звуку, а также внешний вид лица.

Это означает, что стиль — это все, что изменяет видео, сохраняя при этом вид того же человека и сохраняя синхронизацию губ.

В своем исследовании я обычно рассматриваю две конкретные формы стиля: эмоциональный и идиосинкразический. Эмоциональный. стиль — это просто эмоция, выраженная на лице, тогда как идиосинкразический стиль относится к разнице в выражениях между отдельными людьми. Например, то, как улыбка выглядит на моем лице по сравнению с вашим, является примером своеобразного стиля. Это не единственные стили, но они одни из самых простых для демонстрации и работы. В этой работе мы использовали только стили эмоций, поскольку работали над моделями, специфичными для конкретных людей.

Представление эмоционального стиля

ПРОЧИТАЙТЕ Аватары — не первая статья, в которой рассматривается изменение эмоционального стиля при создании аудио-видео. Однако предыдущие методы представляли эмоции либо как горячий вектор, либо как абстрактное скрытое представление (соответствующие примеры см. в EVP и EAMM). Первый не обладает достаточной точностью, чтобы обеспечить детальный эмоциональный контроль, а второй не имеет семантического значения. По этой причине мы решили использовать другое представление эмоций.

Чтобы представить N различных эмоций, мы используем N-мерный вектор, где каждое измерение представляет одну из эмоций и имеет реальное значение от 0 до 1. Мы позволяем 1 быть максимально возможным выражением этой эмоции. Вектор всех нулей – это, следовательно, отсутствие эмоций (они же нейтральные).

Базовый уровень

Чтобы достичь максимально возможного визуального качества, мы основываем нашу модель на подходе, основанном на 3DMM, из предыдущей работы. Если вам интересно, я рассказывал об этом в предыдущей статье! В частности, мы используем подход нейронных текстур, при котором мы обучаем многоканальную текстуру на основе ультрафиолета совместно с UNET для передачи изображения в изображение.

Поскольку мы хотим работать с эмоциями, нам нужно создать все лицо, а не только область рта. Для этого все, что нам нужно сделать, это заменить маску для рта (как видно на изображении выше) на полнолицевую маску.

Наивный подход может заключаться в том, чтобы просто обусловить сеть преобразования аудио в выражение эмоционального кода, который мы только что определили (более подробную информацию о сетях преобразования аудио в выражение см. в моем прошлом посте). Однако это работает не так хорошо, как хотелось бы. Мы предполагаем две потенциальные причины этого: недостаток детализации в базовой 3DMM и эффект чрезмерного сглаживания регрессионных потерь.

Недостаток детализации в 3DMM

Первая из проблем связана с неспособностью 3DMM отображать геометрию лица. Проблема двоякая. Во-первых, 3DMM пытается уловить О-образную форму губ. Это можно увидеть на рисунке ниже. Однако более серьезной проблемой является полное отсутствие каких-либо изображений внутренней части рта, включая зубы и язык.

Это приводит к потенциальной неоднозначности в визуализации, передаваемой в сеть «изображение-изображение». Например, без языка звуки «УХ» и «Л» выражаются одинаково, в таком случае откуда сеть знает, что генерировать внутри рта?

Чтобы решить эту проблему, мы добавляем звук непосредственно в процесс создания видео. Мы делаем это путем обработки нейронной текстуры аудио. Мы используем промежуточные уровни Wav2Vec2 в качестве экстрактора функций и кодируем этот звук в скрытое представление. Затем это используется для настройки сети SIREN с использованием 2D-позиционного кодирования, которая выводит 16-канальную нейронную текстуру, которая меняется в зависимости от звука (см. ниже). Более подробную информацию об архитектуре можно найти в архивной версии статьи.

Такое включение позволяет сети «изображение-изображение» иметь достаточно информации для разрешения таких неоднозначностей.

Гладкость от регрессионных потерь

Существующие модели преобразования звука в выражение обучаются с использованием потерь на основе регрессии, обычно L1 или L2. У них есть заметный недостаток лицевой анимации: они создают очень плавное движение. Если для данного звука действительны две возможные последовательности, модель на основе регрессии выберет среднее из двух, что приведет к усреднению пиков движения и созданию приглушенного движения. Это особенно важно для создания эмоциональной анимации, поскольку части лица, не связанные со звуком, например брови, могут двигаться в любой момент, что приводит к значительному сглаживанию и ухудшению представления эмоций.

Модели на основе GAN облегчают эту проблему. Дискриминатор научится отмечать любое плавное движение как фальшивое, и поэтому генератор будет вынужден создавать реалистичное, реалистичное движение.

Полученные результаты

Действительно, предложенные нами модификации привели к улучшению результатов. Нам удалось добиться результатов, превосходящих нынешний уровень техники.

Заключение и будущая работа

В READ Avatars внесено несколько важных изменений, которые позволяют расширить модели сверхвысокого качества на основе 3DMM, добавив в них эмоциональный стиль. Работа дает интересные результаты! При этом есть и явные недостатки. Хотя синхронизация губ лучше, чем любая существующая эмоциональная модель, это все еще далекая от истины. Мы считаем, что это можно улучшить за счет добавления экспертного дискриминатора, такого как тот, который используется в wav2lip, и использования лучших моделей преобразования звука в выражение, таких как Imitator.

В будущем было бы полезно изменить больше стилей, например, идиосинкразический стиль. Это можно использовать, например, чтобы заставить Джо Байдена говорить движениями губ Дональда Трампа, что может быть интересно! Для этого нам потребуется построить обобщенные модели нейронных текстур, что является интересным направлением исследований и текущей целью будущей работы.

В целом, это был действительно интересный проект, и я очень рад получить свою первую опубликованную статью. Я с нетерпением жду исследований, которые станут продолжением этой работы. Как всегда, если у вас есть какие-либо вопросы или отзывы, дайте мне знать в комментариях!