Я пишу информационный бюллетень для учащихся под названием Mighty Knowledge. Каждый новый выпуск содержит ссылки и основные уроки из самого лучшего контента, включая цитаты, книги, статьи, подкасты и видео. Каждый выбран специально для того, чтобы научиться жить более мудрой, счастливой и полной жизнью. Зарегистрируйтесь здесь.

Синтез текста в речь (TTS) относится к искусственному преобразованию текста в аудио. Человек выполняет эту задачу, просто читая. Цель хорошей системы TTS - заставить компьютер делать это автоматически.

Один очень интересный выбор, который делается при создании такой системы, - это выбор голоса для использования для сгенерированного звука. Мужчина это или женщина? Громкий голос или тихий?

Раньше это представляло ограничение при выполнении TTS с глубоким обучением. Вам нужно будет собрать набор данных из пар текст-речь. Набор динамиков, записавших эту речь, фиксирован - у вас не может быть неограниченного количества динамиков!

Поэтому, если вы хотели создать звук своего или чьего-то голоса, единственный способ сделать это - собрать совершенно новый набор данных.

Исследование искусственного интеллекта от Google под названием Клонирование голоса позволяет компьютеру читать вслух, используя любой голос.

Как работает клонирование голоса

Понятно, что для того, чтобы компьютер мог читать вслух любым голосом, он должен каким-то образом понимать две вещи: что он читает и как он это читает.

Таким образом, исследователи Google разработали систему клонирования голоса, имеющую 2 входа: текст, который мы хотим прочитать, и образец голоса, которым мы хотим прочитать текст.

Например, если бы мы хотели, чтобы Бэтмен прочитал фразу «Я люблю пиццу», мы дали бы системе две вещи: текст с надписью «Я люблю пиццу» и короткий фрагмент голоса Бэтмена, чтобы она знала, как должен звучать Бэтмен. . На выходе должен быть звук голоса Бэтмена, произносящего слова «Я люблю пиццу»!

С технической точки зрения система разбивается на 3 последовательных компонента:

(1) Учитывая небольшой образец звука голоса, который мы хотим использовать, закодируйте форму сигнала голоса в фиксированное векторное представление размерности.

(2) Для данного фрагмента текста также закодируйте его в векторное представление. Объедините два вектора речи и текста и расшифруйте их в Спектрограмму.

(3) Используйте вокодер, чтобы преобразовать спектрограмму в звуковую волну, которую мы можем слушать.

В статье эти три компонента обучаются независимо.

Системы преобразования текста в речь привлекли много внимания исследователей в сообществе Deep Learning за последние несколько лет. И действительно, есть много предлагаемых решений для преобразования текста в речь, которые работают достаточно хорошо, поскольку основаны на глубоком обучении.

Ключевым моментом здесь является то, что система способна использовать «знания», которые кодировщик диктора извлекает из голоса, и применять их к тексту.

После раздельного кодирования речь и текст объединяются в общем пространстве для встраивания, а затем декодируются вместе для создания окончательной выходной формы волны.

Код для клонирования голосов

Благодаря красоте мышления открытого исходного кода в сообществе ИИ, существует общедоступная реализация этого клонирования голоса прямо здесь! Вот как это можно использовать.

Сначала клонируйте репозиторий.

git clone https://github.com/CorentinJ/Real-Time-Voice-Cloning.git

Установите необходимые библиотеки. Обязательно используйте Python 3:

pip3 install -r requirements.txt

В файле README вы также найдете ссылки для загрузки предварительно обученных моделей и наборов данных, чтобы опробовать некоторые образцы.

Наконец, вы можете открыть графический интерфейс, выполнив следующую команду:

python demo_toolbox.py -d <datasets_root>

Вот фото того, как мой выглядит внизу.

Как видите, я установил текст, который я хочу, чтобы компьютер читал справа, как: «Знаете ли вы, что Toronto Raptors - чемпионы по баскетболу? Баскетбол - отличный вид спорта ».

Вы можете щелкнуть кнопки «Случайно» под каждым разделом, чтобы рандомизировать голосовой ввод, а затем щелкнуть «Загрузить», чтобы загрузить голосовой ввод в систему.

Dataset выбирает набор данных, из которого вы будете выбирать образцы голоса, Speaker выбирает говорящего человека, а Utterance выбирает фразу, которую произносит входной голос. Чтобы услышать, как звучит вводимый голос, просто нажмите «Играть».

Как только вы нажмете кнопку «Синтезировать и вокод», алгоритм запустится. Когда все будет готово, вы увидите, что входной динамик читает ваш текст вслух.

Вы даже можете записать свой собственный голос в качестве ввода, но нажав кнопку «Записать один», с которой довольно весело поиграть!

Дальнейшее чтение

Если вы хотите узнать больше о том, как работает алгоритм, вы можете прочитать Официальный документ Google NIPS. Здесь есть еще несколько результатов сэмплов аудио. Я очень хотел бы клонировать репозиторий и попробовать эту потрясающую систему!

Любите учиться?

Следуйте за мной в твиттере, где я публикую все о новейших и величайших достижениях искусственного интеллекта, технологий и науки! Присоединяйтесь и ко мне в LinkedIn!