Почему подсказки TTS (преобразование текста в речь) воспроизводятся нормально при тестировании в одной среде, но не в других?

Я инженер-программист, работающий в компании, которая использует TTS для проектов телефонии. Когда я звоню, чтобы проверить, что наш VUI и соответствующие функции и подсказки TTS работают правильно, я часто сталкиваюсь со следующей проблемой.

Когда я запускаю тесты (размещение телефонных звонков и навигация по VUI), в нашей локальной среде у меня случайным образом появляются подсказки, которые перестают воспроизводиться на несколько секунд. Вместо того, чтобы услышать подсказку, наступает тишина, а затем подсказка начинается там, где вы ожидаете, что это будет через несколько секунд от того места, где началось отключение.

Например, возьмем подсказку: «Здравствуйте, спасибо, что позвонили сегодня». В определенное время при тестировании в нашей локальной среде я слышу, например, "Здравствуйте, сегодня звонит короткая тишина".

Но когда я запускаю точно такой же тест в нашей среде, в которой мы развертываемся, я слышу то же самое приглашение, как и ожидал. Я знаю, что проблемы с окружающей средой могут быть обычными для TTS, в частности, подсказки обрываются и не играют четко, но мне любопытно, может ли кто-нибудь уточнить, что это за «проблемы с окружающей средой»? Кроме того, я знаю, что эти проблемы не являются проблемами грамматики. Я запускаю тесты, в которых подсказка произносится идеально, но затем, когда я даю ответ без ввода или несоответствия, чтобы нажать следующую функцию, которая в этом случае по сути является той же самой подсказкой, отсечка / тишина имеет место.

Любая информация, сайты или книги очень ценятся. Я лично ничего не нашел в Интернете по этому поводу. Заранее спасибо!


person Conor Fallon    schedule 15.10.2019    source источник
comment
Добро пожаловать в Stack Overflow _ Пожалуйста, найдите минутку, чтобы посетить Справочный центр SO _ В разделе «Задать вопрос» есть примечания, которые содержат дополнительные рекомендации о том, почему ваш вопрос может не соответствовать теме этого сайта список тем ››› stackoverflow.com/help/on-topic   -  person inputforcolor    schedule 16.10.2019


Ответы (1)


TTS — Преобразование текста в речь — это активный процесс. В зависимости от того, как ваша платформа реализует TTS, он может напрямую передаваться с сервера TTS. Возможно, механизм TTS не может выполнить запрос.

Если это локально (в наши дни это маловероятно), следите за производительностью серверов TTS. CPU — лучший показатель. Если платформа использует журналы MRCP (вероятно), журналы для этого общения могут дать представление.

Если это размещенное решение, обратитесь к своему провайдеру. Скорее всего, их тестовая среда недостаточно подготовлена ​​для TTS. В основном потому, что в тестовых средах все остальные делают то же самое. В производственной среде многие приложения переключаются на запись звука для повышения качества, поэтому масштаб ресурсов TTS уменьшается.

Для уродливого взлома вы можете воспроизвести запись (фактический аудиофайл) 1 с тишины в начале всех форм. Это может дать серверу TTS достаточно времени, чтобы продвинуться вперед и буферизовать генерацию звука.

person Jim Rush    schedule 16.10.2019
comment
Спасибо за ваш ответ, это очень полезно! Ваше предположение верно, наши серверы находятся за границей (полагаю, в Лондоне). Однако это не размещенное решение, поэтому, если проблема не исчезнет, ​​я попробую протестировать этот трюк с тишиной 1s и посмотреть, сможем ли мы легко реализовать его для локального тестирования и использовать для развертывания. - person Conor Fallon; 17.10.2019
comment
Это также может быть вызвано задержками, присущими виртуальным средам. Я бы попробовал просто воспроизвести аудиофайл, чтобы убедиться, что это не проблема с подключением. - person dabhand; 24.10.2019