1. Diff2Lip: модели диффузии с условным звуком для синхронизации губ (arXiv)

Автор: Сумик Мухопадхьяй, Сакшам Сури, Рави Теджа Гадде, Абхинав Шривастава.

Аннотация: Задача синхронизации губ (lip-sync) направлена ​​на сопоставление губ человеческих лиц с различным звуком. Он имеет различные применения в киноиндустрии, а также для создания виртуальных аватаров и видеоконференций. Это сложная задача, поскольку необходимо одновременно представить детальные, реалистичные движения губ, сохраняя при этом идентичность, позу, эмоции и качество изображения. Многие из предыдущих методов решения этой проблемы страдают от ухудшения качества изображения из-за отсутствия полной контекстной информации. В этой статье мы представляем Diff2Lip, модель на основе диффузии с аудиокондиционированием, которая способна синхронизировать губы в реальных условиях, сохраняя при этом эти качества. Мы обучаем нашу модель на Voxceleb2, наборе видеоданных, содержащем видеоролики с говорящими лицами в дикой природе. Обширные исследования показывают, что наш метод превосходит популярные методы, такие как Wav2Lip и PC-AVS, по метрике начального расстояния Фреше (FID) и среднему мнению пользователей (MOS). Мы показываем результаты как для реконструкции (одинаковые аудио-видео входы), так и для перекрестных (разные аудио-видео входы) настроек в наборах данных Voxceleb2 и LRW. Видеорезультаты и код доступны на странице нашего проекта (https://soumik-kanad.github.io/diff2lip).

2. Извлечение целевой речи с помощью модели условной диффузии (arXiv)

Автор: Наоюки Камо, Марк Делькруа, Томохиро Накатани.

Аннотация: Улучшение речи на основе модели диффузии привлекло повышенное внимание, поскольку оно может генерировать очень естественные усиленные сигналы и хорошо обобщается на невидимые условия. Модели диффузии были исследованы для нескольких подзадач улучшения речи, таких как шумоподавление речи, дереверберация и разделение источников. В этой статье мы исследуем их использование для извлечения целевой речи (TSE), которое состоит из оценки чистого речевого сигнала целевого говорящего в смеси нескольких говорящих. TSE реализуется путем обусловливания процесса извлечения подсказкой, идентифицирующей целевого говорящего. Мы показываем, что можем реализовать TSE, используя модель условной диффузии, обусловленную подсказкой. Кроме того, мы вводим ансамблевый вывод, чтобы уменьшить потенциальные ошибки извлечения, вызванные процессом диффузии. В экспериментах с корпусом Libri2mix мы показываем, что предлагаемая TSE на основе диффузионной модели в сочетании с ансамблевым выводом превосходит сопоставимую систему TSE, обученную дискриминативно.