Кремниевая ночная лихорадка: ИИ Беркли падает

Электрифицировать весь танцевальный клуб легко, если у вас есть убийственные движения, такие как Джон Траволта в «Лихорадке субботнего вечера». Но для остальных из нас не так много. Мы можем трясти задницей и размахивать руками, но давайте посмотрим правде в глаза: некоторые люди просто не умеют танцевать. Но теперь появилась надежда благодаря ИИ.

Исследователи из Калифорнийского университета в Беркли предложили простой метод передачи движений, который может заставить неуклюже танцевать, как Траволту. Сначала вводится исходное танцевальное видео, после которого следуют попытки целевого человека выполнить такие танцевальные движения. Через несколько минут модель синтезирует плавное танцевальное видео с участием целевого объекта. «Everybody Dance Now» действительно!

Для передачи движения между людьми в разных видеороликах исследователи использовали сквозной пиксельный конвейер. Процесс требует сопоставления изображений двух людей. Поскольку исходный и целевой субъекты, вероятно, имеют разные размеры и формы тела, метод фокусируется на наблюдении позы на основе ключевых точек, которые могут всесторонне интерпретировать положение тела.

Исследователи разработали промежуточное представление между источником и целью в виде фигурок из палочек. Таким образом, обучение можно проводить под наблюдением, используя фигурки из палочек. Фигурки позы затем переносятся в обученную модель для получения изображений цели в той же позе, что и исходная. Используя этот метод, исходные движения могут быть полностью переданы цели.

Исследователи разделили конвейер на три этапа - определение позы, глобальная нормализация позы и отображение нормализованных фигурок позы в исходных видеокадрах.

Предварительно обученный детектор позы метода точно оценивает координаты суставов, чтобы можно было правильно выровнять изображение получившейся фигурки позы. Этап глобальной нормализации позы показывает различия между исходной и целевой фигурами и их расположение в кадрах. Наконец, система отображает нормализованные результаты для создания синтезированных изображений с использованием модифицированного состязательного обучения.

Обученный GAN может сделать выражения лица цели реалистичными. Исследователи также приняли во внимание временную гладкость созданного ими видео, чтобы гарантировать, что каждый кадр обусловливает предсказание на основе предыдущего шага.

Газета Танцуют все сейчас доступна на arVix.

Журналист: Фаню Цай | Редактор: Майкл Саразен

Подпишитесь на нас в Twitter @Synced_Global, чтобы узнавать больше об искусственном интеллекте!

Подпишитесь на Synced Global AI Weekly, чтобы получать информативные технические новости, обзоры и анализ! Нажмите здесь!

Кремниевая ночная лихорадка: ИИ Беркли падает

Вопросы по теме