Я провел некоторое исследование о возможности создания мобильного/веб-приложения, которое позволяет пользователям произносить фразу и определяет акцент пользователя (Бостон, Нью-Йорк, Канада и т. д.). Пользователь может произнести от 5 до 10 предопределенных фраз. Я знаком с некоторыми доступными API преобразования речи в текст (Nuance, Bing, Google и т. д.), но ни один из них не предлагает эту дополнительную функциональность. Наиболее близкими примерами, которые я нашел, являются Google Now или Microsoft Speaker Recognition API:
http://www.androidauthority.com/google-now-accents-515684/< /а>
https://www.microsoft.com/cognitive-services/en-us/speaker-recognition-api
Поскольку будет 5-10 предопределенных фраз, я думаю об использовании программного обеспечения для машинного обучения, такого как Tensorflow или Wekinator. Я бы создал исходный звук для каждого акцента, чтобы использовать его в качестве исходных данных. Прежде чем я углублюсь в этот путь, я просто хотел получить отзывы об этом подходе или о том, есть ли лучшие подходы. Дайте мне знать, если мне нужно что-то уточнить.