HTK: понимание результатов в результирующем файле .mlf

Я пытаюсь понять результат файла recout.mlf, поэтому у меня есть следующие строки в этом файле:

введите здесь описание изображения

Какое из слов «а» произносится правильно: с -524,427185 или с -1054,774536?


person Mehdi Souregi    schedule 25.01.2019    source источник


Ответы (1)


Акустические партитуры, полученные при декодировании, обычно очень малы. Чтобы предотвратить недополнение, вместо вероятностей используются логарифмические вероятности: 1.5 Распознавание и декодирование Витерби.

Меньшие значения аргумента соответствуют большим отрицательным значениям логарифмов:

Натуральный бревно

Таким образом, первый «as» получил более высокий (-524,427185) акустический балл. Логарифм является монотонной функцией (чем больше аргумент, тем больше значение), поэтому вы можете напрямую сравнивать логарифмические вероятности: -524 > -1054.

Кстати, это не обязательно означает, что первое «как» было лучше произнесено. Акустическая оценка зависит от многих факторов, включая топологию модели и данные, на которых модель обучалась.

person Dmytro Prylipko    schedule 25.01.2019