Генеративные модели — важная область исследований в области искусственного интеллекта, которая фокусируется на создании синтетических данных, имитирующих характеристики реальных данных. Недавние достижения в области генеративных моделей сделали их одним из самых мощных инструментов машинного обучения. Одним из самых популярных и успешных подходов к генеративному моделированию является использование диффузионных моделей. Эти модели получили широкое распространение благодаря своей способности синтезировать высококачественные данные даже в сложных сценариях. Впечатляющую производительность моделей диффузии можно объяснить их способностью моделировать сложные распределения с использованием простого процесса диффузии. Самые последние и современные модели распространения, такие как Вероятностная модель распространения шумов, добились значительного прогресса в расширении возможностей моделей распространения. Эти модели широко используются в различных приложениях, включая генерацию изображений, синтез речи и обработку естественного языка. Вероятностная модель Denoising Diffusion, в частности, представляет собой мощную технику для шумоподавления изображений и продемонстрировала превосходную производительность в различных реальных сценариях. Его успех можно объяснить его способностью моделировать основное распределение шума и распределение данных изображения одновременно. В целом, диффузионные модели, особенно вероятностная модель шумоподавления, представляют собой значительный прорыв в генеративном моделировании и обладают огромным потенциалом для широкого круга приложений. Ниже показаны некоторые исключительные генеративные результаты из моего собственного опыта и других.

Фон

Модель диффузии, сокращенно от вероятностной модели диффузии, представляет собой мощный метод машинного обучения, который включает обучение параметризованной цепи Маркова с использованием вариационного вывода. Цель модели — генерировать синтетические данные, которые соответствуют распределению реальных данных за конечное время. Модель достигает этого, изучая переходы, которые могут обратить вспять процесс диффузии, который является типом цепи Маркова, которая постепенно добавляет шум к данным в направлении, противоположном выборке, до тех пор, пока сигнал не будет уничтожен. Проще говоря, диффузионная модель работает путем постепенного удаления шума из данных до тех пор, пока они не станут похожи на данные реального мира.

Чтобы сделать этот процесс эффективным, переходы цепочки выборки должны быть тщательно отобраны. Когда в процессе диффузии присутствуют небольшие количества гауссовых шумов, достаточно установить переходы цепочки дискретизации на условные гауссианы. Это позволяет использовать простую параметризацию нейронной сети, которая может эффективно моделировать распределение данных. Тщательно выбирая эти переходы и используя вариационный вывод, модели распространения могут генерировать высококачественные синтетические данные, которые точно соответствуют реальному распределению данных.

В целом, диффузионные модели — многообещающий метод генеративного моделирования с потенциальными приложениями в самых разных областях, включая синтез изображений и речи, обработку естественного языка и многое другое. Их способность моделировать сложные распределения с использованием простого процесса диффузии делает их интересной областью исследований будущего машинного обучения. Общая схема представлена ​​следующим образом.

Методология

Обратный процесс

Модели диффузии представляют собой модели скрытых переменных следующего вида, где x_1, …. , x_T — скрытые переменные. Совместное распределение, показанное в следующем уравнении, называется Обратный процесс и определяется как цепь Маркова с изученными гауссовскими переходами:

Прямой процесс (диффузионный процесс)

Противоположное направление обратного процесса можно рассматривать как приблизительную апостериорную картину, показанную ниже, фиксированную на цепи Маркова, которая постепенно добавляет к данным гауссовский шум в соответствии с графиком дисперсии β_1 , . . . , β_T :

Цель обучения

Обучение выполняется путем оптимизации обычной вариационной границы отрицательной логарифмической вероятности:

β можно узнать с помощью трюков репараметризации или сохранения константы. Примечательным свойством прямого процесса является то, что он допускает выборку x_t на произвольном временном шаге t в закрытой форме:

Путем оптимизации случайных членов L с использованием стохастического градиентного спуска становится возможным эффективное обучение модели. Кроме того, производительность модели может быть дополнительно улучшена путем реализации методов уменьшения дисперсии, которые включают переписывание L.

В приведенном выше уравнении используется KL-дивергенция для прямого сравнения pθ с прямым апостериорным значением, которое можно обрабатывать во время обучения с условиями:

Следовательно, все расхождения KL представляют собой сравнения между гауссианами, поэтому их можно рассчитать по методу Рао-Блэквелла с выражениями в закрытой форме вместо оценок Монте-Карло с высокой дисперсией.

Прямой процесс и L_T

В этой статье они игнорируют тот факт, что дисперсии прямого процесса βt поддаются изучению путем репараметризации, и вместо этого фиксируют их как константы.

Обратный процесс и L_{1:T-1}

Вспомним выбор обратного процесса p_θ по распределению Гаусса. Чтобы представить среднее значение, авторы предлагают конкретную параметризацию, мотивированную следующим анализом L_t. Со следующим чередованием:

Мы можем написать:

Итак, мы видим, что самая простая параметризация μ_θ — это модель, которая предсказывает μ_t, то есть прямое апостериорное среднее.

В этой статье вместо прогнозирования среднего значения обучающих выборок они выбирают прогнозирование добавления шумов с аналогичной мотивацией, упомянутой выше. Если вы хотите узнать больше о деталях, пожалуйста, наберитесь терпения и времени, чтобы сослаться на оригинальную статью. Конечная цель, используемая в этой статье, представлена ​​​​следующим образом:

Заключение

В этой статье я упомянул только некоторые основные идеи статьи, включая прямой и обратный процессы. Однако механизм, лежащий в основе модели диффузии, довольно сложен. Я надеюсь, что эта статья поможет вам легко понять общую картину модели Diffusion.

В этой статье я кратко излагаю свою точку зрения на бумагу. Я надеюсь, что вы сможете узнать больше об этом после прочтения. Я также предлагаю ссылку на видео о статье, надеюсь, вам понравится!!!!

Если вам понравилась статья, пожалуйста, дайте мне немного 👏, поделитесь статьей и следуйте за мной, чтобы узнать больше о мире мультиагентного обучения с подкреплением. Вы также можете связаться со мной в LinkedIn, Instagram, Facebookи Github.