WaveNet - это генеративная модель с глубокой авторегрессией,
которая воспроизводит человеческий голос, где необработанный звук подается в качестве входных данных в модель, переводя синтез речи на новый уровень.

WaveNet - это комбинация двух разных идей: вейвлет и нейронные сети. Необработанный звук обычно представляется как последовательность из 16 бит. 16-битные выборки дают ²¹⁶ (65536) значений квантования, которые обрабатываются с помощью softmax, что делает его затратным с точки зрения вычислений. Следовательно, последовательность выборок сокращается до 8 бит, используя преобразование по закону μ, F (x) = sign (x) ln (1 + μ | x |) / ln (1 + μ), -1 ≤ x ≤ 1, где μ принимает значение от 0 до 255, а x обозначает входные выборки, а затем квантует до 256 значений.

Первый шаг - это этап предварительной обработки звука, после того как входной сигнал
квантован до фиксированного целочисленного диапазона. Затем целочисленные
амплитуды кодируются в горячем режиме. Эти закодированные в горячем режиме выборки проходят каузальную свертку.

Слой причинной свертки

В сигнале и системе причинная система - это система, которая называется выходом, который зависит от прошлых и текущих входов, но не от будущих входов. Реализовать причинно-следственную систему практически возможно. В WaveNet текущая акустическая интенсивность нейронной сети создается на временном шаге t и зависит только от данных до t.

Этот уровень является основной частью архитектуры, так как он обозначает авторегрессионное свойство WaveNet, а также поддерживает порядок выборок.

Для обучения 1 выходной выборки используются 5 входных выборок. Восприимчивое поле этой сети 5.

Следующее уравнение используется для генерации новых выборок путем прогнозирования вероятности следующих выборок с учетом вероятностей предыдущих и текущих выборок.

Проблема с каузальной сверткой состоит в том, что они требуют много слоев,
или больших фильтров для увеличения воспринимающего поля.

Слой расширенной свертки

Расширенную свертку также называют сверткой с отверстиями или а-трозной сверткой. В стандартной свертке (расширение = 1) ядро ​​изменяется линейно. Это эквивалентно свертке с большим фильтром, в которой исходная свертка заполняется нулями для увеличения воспринимающего поля сети. Сложенные расширенные свертки позволяют сетям иметь очень большие
воспринимающие поля всего с несколькими слоями, сохраняя при этом входное
разрешение во всей сети, а также вычислительную
эффективность. Для обучения 1 выборки требуется всего 16 входов по сравнению с 5 в каузальной свертке.

Каждые 1, 2, 4,. . . , Блок 512 имеет принимающее поле размером 1024 и может
рассматриваться как более эффективный и разборчивый (нелинейный)
аналог свертки 1 × 1024.

Модель поражается там, где входные данные почти бесшумны, поскольку модель не понимает, какие следующие сэмплы будут сгенерированы.

Блоки активации закрытого типа

Целью использования закрытых устройств активации является моделирование сложных операций. Блокированные устройства активации представлены следующим уравнением:

Остаточная блокировка и пропуск соединений

Использование остаточных блоков и пропускаемых каналов вдохновлено архитектурой PixelCNN для изображений. По всей сети используются как остаточные, так и параметризованные пропускные соединения, чтобы ускорить сходимость и обеспечить
обучение более глубоких моделей.

Глобальное и локальное кондиционирование

Когда модель WaveNet обусловлена ​​дополнительными входными характеристиками (лингвистическая
функция или акустическая функция), обозначенными h (скрытое представление
функций), она представляется как p (x | h)

Обусловляя модель другими входными переменными, мы можем направить генерацию
WaveNet на создание звука с необходимыми
характеристиками.

Модель WaveNet обусловлена ​​на основе природы входных данных двумя способами: a) глобальное кондиционирование, b) локальное кондиционирование.

Глобальная обусловленность характеризует личность говорящего, которая влияет на распределение выходного сигнала на всех временных шагах, и представлена ​​следующими уравнениями:

Локальные особенности речи представляют собой контекст высказывания и
стиль речи говорящего. Поскольку вейвлет также улавливает локальные особенности сигнала, необходимость в локальном кондиционировании является обязательной. Локальное кондиционирование может быть выполнено с помощью повышающей дискретизации, которая выполняется с использованием транспонированной свертки, или повторной дискретизации. Локальное кондиционирование представлено следующим уравнением:

Если для Сети не предусмотрено такое кондиционирование, модель издает тарабарщину.

Дистрибутивы Softmax

Один из подходов к моделированию условных распределений p (x t | x 1,…, x t − 1) по отдельным аудиосэмплам заключается в использовании смешанной модели.

Причина использования распределения softmax заключается в том, что категориальное распределение более гибкое и может более легко моделировать произвольные распределения, поскольку оно не делает никаких предположений (без предварительных) об их форме.

Сгенерированные сэмплы позже преобразуются в аудио с использованием преобразования расширения по μ-закону, которое является обратным преобразованию с сложением по μ-закону.

Дополнительное чтение для более четкого понимания WaveNet см. По этой ссылке (http : //tonywangx.github.io/pdfs/wavenet.pdf).