Резюме статьи «Распутанный контроль для передачи генерации человеческого танца в реальном мире»

Вы не очень плодовитый танцор, но хотите вирусное танцевальное видео TikTok? Я думаю, что мы живем в эпоху, когда это желание может теперь сбыться!

В статье Tan Wang et.al (https://arxiv.org/abs/2307.00040) под названием Распутанный контроль для реферирования человеческого
танца в реальном мире
представлен новый подход к созданию танцевального образа человека. любой человеческий субъект путем объединения изображения субъекта с невидимыми танцевальными позами или ключевыми точками (например, ключевыми точками настоящего танцора из TikTok)

Самая интересная часть этого заключается в том, что модель может делать это в значительной степени, даже не видя эталонного человека, обстановку фона или какие-либо танцевальные позы, в которых она используется как часть тренировочного набора!

Авторы сосредотачиваются на создании реалистичных изображений переднего плана и фона в дополнение к танцевальной позе. В целом это обеспечивает высокую точность конечного результата.

Демо находится здесь, но, похоже, в данный момент не работает. Ссылка на демо здесь

Как работает Диско? Давайте углубимся в детали!

Концепции:

Эталонное изображение. Это исходное изображение человека, которое мы предоставляем модели. Мы хотим создать танцующие образы этого человека.

Эталонный передний план (FG): вырезанное изображение человека (отделено от эталонного изображения).

Эталонный фон (BG): фон эталонного изображения.

Можно применить типичный алгоритм сегментации, такой как SAM (Segment Anything), для создания изображений FG и BG из эталонных изображений.

Центральная идея

Стабильная диффузия + ControlNet (x2) = DisCo!

Обратите внимание: приведенное выше утверждение является чрезмерным упрощением, но отражает основную суть статьи.

Стабильная диффузия используется без текстовой подсказки. Вместо типичного скрытого встраивания текста CLIP, которое обеспечивает текстовая подсказка, используется встраивание изображения CLIP с некоторыми изменениями, сгенерированными из переднего плана эталонного изображения (FG). используется вместо этого.