API обнаружения акцента?

Я провел некоторое исследование о возможности создания мобильного/веб-приложения, которое позволяет пользователям произносить фразу и определяет акцент пользователя (Бостон, Нью-Йорк, Канада и т. д.). Пользователь может произнести от 5 до 10 предопределенных фраз. Я знаком с некоторыми доступными API преобразования речи в текст (Nuance, Bing, Google и т. д.), но ни один из них не предлагает эту дополнительную функциональность. Наиболее близкими примерами, которые я нашел, являются Google Now или Microsoft Speaker Recognition API:

http://www.androidauthority.com/google-now-accents-515684/< /а>

https://www.microsoft.com/cognitive-services/en-us/speaker-recognition-api

Поскольку будет 5-10 предопределенных фраз, я думаю об использовании программного обеспечения для машинного обучения, такого как Tensorflow или Wekinator. Я бы создал исходный звук для каждого акцента, чтобы использовать его в качестве исходных данных. Прежде чем я углублюсь в этот путь, я просто хотел получить отзывы об этом подходе или о том, есть ли лучшие подходы. Дайте мне знать, если мне нужно что-то уточнить.

user1034642 26.11.2016 источник

Ответы (2)

arrow_upward
3
arrow_downward

Вы можете использовать (это всего лишь идея, вам нужно будет много экспериментировать) нейронную сеть с максимально возможным количеством выходов, акцентами, которые у вас есть, с выходным слоем softmax и функцией кросс-энтропийной стоимости.

Luis Leal 26.11.2016

arrow_upward
5
arrow_downward

Для такой редкой задачи нет общедоступного API.

Обнаружение акцента как определение языка обычно реализуется с помощью i-векторов. Учебник находится здесь. Реализация доступна в Kaldi.

Вам нужен значительный объем данных для обучения системы, даже если ваши предложения фиксированы. Возможно, вам будет проще собирать акцентированную речь, не сосредотачиваясь на конкретных предложениях, которые у вас есть.

Реализация сквозного тензорного потока также возможна, но, вероятно, потребует слишком много данных, поскольку вам нужно отделить вещи, присущие говорящему, от вещей, присущих акценту (в основном, выполнять факторизацию, как это делает i-vector). Вы можете найти описания подобных работ, таких как этой и этого .

Nikolay Shmyrev 26.11.2016

Вопросы по теме

eventReactive с 2 кнопками действий на 2 вкладках
Добавить результат в TestCaseSource
три столбца в одну дату
Как открыть URL-адрес в WebView через .js в создателе кокосов
Highchart GMT и смещение в один час
проблема с отключением дат в datepicker
Получить описание текущего шага, вызываемого из файла BDD
журнал данных ракетки - журнал данных с отрицанием?
Не удается проиндексировать массив int RavenDB
Как использовать команду Scaffold-DbContext в VS Code
Взрывающийся градиент тензорного потока
Итерация по столбцу фрейма данных pandas и оценка с помощью оператора if и передача значений столбца в пустой список/словарь
Заполнить таблицу данных; Неверный ответ JSON
Получить точное время для удаленного сервера
Сбор элементов в массиве JSON
Динамический компонент круговой диаграммы D3 в Angular
Данные о пользовательских событиях в Firebase Events
Laravel 5.2 - проблема с веб-сервисами
Как повернуть трехмерный график в Matplotlib вокруг любой оси
Представление класса базы данных Java SQL