Я пытаюсь определить, использует ли AWS Lex AWS Transcribe для оперативных подтверждений. Например, Лекс спрашивает «Какой у вас номер телефона?», Пользователь отвечает «1-2-3-4». Затем Лекс спрашивает: «Вы сказали 1-2-3-4?». Что Lex за кулисами использует в качестве ASR, чтобы определить, что пользователь сказал «1-2-3-4»? Это AWS Transcribe или что-то другое?
Использует ли AWS Lex AWS Transcribe в качестве ASR для быстрого распознавания?
Ответы (1)
Я не думаю, что кто-то знает, кроме AWS, но для Лекса есть смысл использовать силу, стоящую за AWS Transcribe
(и AWS Polly
для ответа от Лекса). Говоря о личном опыте, примерно за месяц до объявления Transcribe на reInvent 17 я использовал Lex
для выполнения STT (преобразование речи в текст). Тогда это стало возможным, поскольку intents
можно игнорировать и передать обработчику Lambda
. Пакет JSON, переданный обработчику Lambda
, содержал распознанную речь (как текст), и я вернул ее вызывающей стороне. Однако через некоторое время после того, как они объявили Transcribe
, это перестало работать, поскольку в intents
больше нельзя было игнорировать. Любой ввод, кроме тех, что в intents
, вернет настроенный ответ об ошибке. Я предполагаю, что они остановили это, когда запустили Transcribe.
Приложение: AWS Transcribe
- это чистый ASR (автоматическое распознавание речи или преобразование речи в текст). Он возвращает распознанную речь и метаданные (достоверность и т. Д.).
С AWS Lex
вы можете создавать собственных ботов для автоматического ответа на запросы (как в Alexa).