Я имею дело с задачей распознавания речи. До сих пор я использовал Google Cloud Speech Recognition API (на Python) с хорошими результатами. API возвращает значение достоверности вместе с каждым фрагментом. транскрибированного текста. Уверенность - это число от 0 до 1, как указано в документации, но я не нашел более глубокого объяснения того, как API Google получает это число, поэтому я предполагаю, что оно каким-то образом исходит из нейронной сети, которая распознает.
Следующим шагом, который я хочу сделать, является создание моей собственной (автономной) программы автоматического распознавания речи, и я обнаружил, что pyKaldi должно хорошо подходить к задаче. Я еще не начал его программировать, но хочу знать заранее (в исследовательских целях) - может ли Kaldi вернуть такое же значение уверенности, как Google Speech-to-Text API? И что на самом деле представляет собой «уверенность» и как она рассчитывается?