Клонирование голоса обычно требует сбора часов записанной речи для создания набора данных, а затем использования набора данных для обучения новой модели голоса. Но не больше. Новый проект Github представляет замечательную панель инструментов для клонирования голоса в реальном времени, которая позволяет любому клонировать голос всего за пять секунд образца звука.

Этот репозиторий Github был открыт в июне этого года как реализация статьи Перенос обучения от проверки говорящего на синтез текста в речь с несколькими динамиками (SV2TTS) с вокодером, который работает в реальном времени. Проект был разработан Корентином Джемином, который получил степень магистра наук о данных в Льежском университете и работает инженером по машинному обучению в Resemble AI в Торонто.

Пользователи вводят короткий образец голоса, и модель, обученная только во время воспроизведения, может немедленно преобразовывать текст в речь в стиле дискретизированного голоса. Проект получил восторженные отзывы, заработал более 6000 звезд на GitHub и 700 форков.

Первоначальный интерфейс набора инструментов SV2TTS показан ниже. Пользователи могут воспроизводить голосовой аудиофайл продолжительностью около пяти секунд, выбранный случайным образом из набора данных, или использовать свой собственный аудиоклип.

Спектрограмма mel и соответствующие ей вложения высказывания будут сгенерированы после нажатия кнопки «загрузить».

Хотя один короткий образец дает впечатляющий клонированный голос, результаты быстро улучшаются, если обучение включает как минимум три произнесения. По мере того, как вводятся дополнительные высказывания одного и того же говорящего, они формируют кластер разностных встраиваний, которые пользователи могут наблюдать через отображение отображения в интерфейсе.

Вложения каждого говорящего могут быть применены для синтетического озвучивания случайного высказывания, или пользователи могут вводить свои собственные тексты, и модель будет озвучивать их.

Технология клонирования голоса сегодня относительно доступна в Интернете. Монреальский стартап Lyrebird в области искусственного интеллекта предоставляет онлайн-платформу, которая может имитировать мимику речи человека при обучении на 30 или более записях. В прошлом году Baidu представила новую систему нейронного клонирования голоса, которая синтезирует голос человека только из нескольких аудиосэмплов.

Новый репозиторий Corentin Jemine предоставляет саморазработанный фреймворк с трехэтапным конвейером, реализованным на основе более ранних исследовательских работ, включая SV2TTS, WaveRNN, Tacotron 2 и GE2E.

Репозиторий GitHub включает связанные статьи, обновления и краткое руководство по настройке набора инструментов.

Автор: Рейна Ци Ван | Редактор: Майкл Саразен

Мы знаем, что вы не хотите пропустить ни одной истории. Подпишитесь на наш популярный Synced Global AI Weekly , чтобы получать еженедельные обновления AI.

Нужен всесторонний обзор прошлого, настоящего и будущего современных исследований в области искусственного интеллекта? Отчет Тенденции развития технологий искусственного интеллекта вышел!

Вышел Отчет об адаптивности AI для публичной компании Fortune Global 500 за 2018 год!
Приобретите отчет в формате Kindle на Amazon.
Подайте заявку на Партнерскую программу Insight, чтобы получить бесплатный полный отчет в формате PDF.