API обнаружения акцента?

Я провел некоторое исследование о возможности создания мобильного/веб-приложения, которое позволяет пользователям произносить фразу и определяет акцент пользователя (Бостон, Нью-Йорк, Канада и т. д.). Пользователь может произнести от 5 до 10 предопределенных фраз. Я знаком с некоторыми доступными API преобразования речи в текст (Nuance, Bing, Google и т. д.), но ни один из них не предлагает эту дополнительную функциональность. Наиболее близкими примерами, которые я нашел, являются Google Now или Microsoft Speaker Recognition API:

http://www.androidauthority.com/google-now-accents-515684/< /а>

https://www.microsoft.com/cognitive-services/en-us/speaker-recognition-api

Поскольку будет 5-10 предопределенных фраз, я думаю об использовании программного обеспечения для машинного обучения, такого как Tensorflow или Wekinator. Я бы создал исходный звук для каждого акцента, чтобы использовать его в качестве исходных данных. Прежде чем я углублюсь в этот путь, я просто хотел получить отзывы об этом подходе или о том, есть ли лучшие подходы. Дайте мне знать, если мне нужно что-то уточнить.


person user1034642    schedule 26.11.2016    source источник


Ответы (2)


Вы можете использовать (это всего лишь идея, вам нужно будет много экспериментировать) нейронную сеть с максимально возможным количеством выходов, акцентами, которые у вас есть, с выходным слоем softmax и функцией кросс-энтропийной стоимости.

person Luis Leal    schedule 26.11.2016

Для такой редкой задачи нет общедоступного API.

Обнаружение акцента как определение языка обычно реализуется с помощью i-векторов. Учебник находится здесь. Реализация доступна в Kaldi.

Вам нужен значительный объем данных для обучения системы, даже если ваши предложения фиксированы. Возможно, вам будет проще собирать акцентированную речь, не сосредотачиваясь на конкретных предложениях, которые у вас есть.

Реализация сквозного тензорного потока также возможна, но, вероятно, потребует слишком много данных, поскольку вам нужно отделить вещи, присущие говорящему, от вещей, присущих акценту (в основном, выполнять факторизацию, как это делает i-vector). Вы можете найти описания подобных работ, таких как этой и этого .

person Nikolay Shmyrev    schedule 26.11.2016