Этот вопрос задавали несколько лет назад, но, надеюсь, все изменилось ...
Может ли кто-нибудь указать мне какие-либо подробности о том, какие версии Android поддерживают какое подмножество SSML в свой механизм преобразования текста в речь?
Я провел несколько экспериментов с использованием Flutter-TTS, который представляет собой просто слой, передающий текст, который будет озвучен, в службу TTS базовой платформы.
Некоторое неизвестное подмножество SSML действительно работает на более новом Android - например, этот SSML
<speak>before<break time="5s"/>after</speak>
действительно создает пятисекундную паузу между словами в API 27 и API 29. Он не работает в API 21, но, по крайней мере, обрабатывает его изящно, просто игнорируя все теги. Я еще не тестировал другие уровни API. Я также пробовал теги prosody, phoneme и lang - похоже, они не работают.