Мои два цента, основанные на практическом опыте использования обоих сервисов для транскрипции английского языка.

С технической точки зрения, автоматическое распознавание речи (ASR) — это преобразование содержания определенного языка из одной формы в другую. Здесь исходная форма находится в аудио, а целевая форма - в текстовом. И звук, и текст на одном языке. У меня была возможность поэкспериментировать как с Amazon Transcribe, так и с сервисами преобразования речи в текст GCP (платформа Google Cloud) для расшифровки аудио/видео на американском английском языке. Я собираюсь сравнить эти два сервиса по некоторым критериям.

  1. Скорость/время вызова API

По моим наблюдениям, сервис GCP Speech-to-Text в среднем как минимум в 2–3 раза быстрее, чем сервис Amazon Transcribe. Для аудио продолжительностью 20 секунд служба расшифровки Amazon может расшифровать от 20 до 50 секунд, тогда как преобразование речи в текст может занять от 5 до 25 секунд. Еще один факт, который я заметил, заключается в том, что для списка аудиофайлов одинаковой продолжительности время транскрипции этих аудиофайлов более разбросано в случае службы Speech-to-Text по сравнению с транскрипцией Amazon. . Другими словами, транскрипция Google требует переменного времени для расшифровки аудио фиксированной продолжительности по сравнению с транскрипцией Amazon, которая обычно занимает больше времени выполнения и группируется вокруг более высокого среднего времени выполнения.

2. Точность

Я хочу только коснуться точности расшифровки технических терминов и акронимов. Служба Speech-to-Text от Google способна распознавать технические термины и аббревиатуры гораздо лучше, чем служба Transcribe от Amazon. Для таких терминов, как S3 и dev, служба расшифровки Amazon может транскрибировать их как «s three» и «deep». ”, тогда как служба расшифровки Google будет воспроизводить их точно так, как они написаны здесь.

3. Удаление звуков наполнителя

Google автоматически удаляет звуки-наполнители, такие как а, гм, ммм и т. д., из текста транскрипции, в то время как Amazon сохраняет их вместе с текстом.

4. Автоматическая пунктуация

Автоматическая пунктуация Amazon Transcribe в тексте транскрипции кажется намного более точной, чем Google Speech-to-text. Это может быть одной из причин, почему Amazon расшифровывает медленнее, чем Google Speech-to-Text.

5. Автоматическое создание субтитров

С помощью API-вызова транскрипции Amazon вы можете настроить параметры для создания файлов субтитров srt и vtt с заданием транскрипции. Google не предоставляет эти файлы субтитров. Хотя вы можете создавать файлы субтитров из результатов вызова API транскрипции Google. Здесь — это сообщение в блоге среднего размера о создании субтитров из вызова Google API.

6. Базовые модели машинного обучения

У GCP Speech-to-Text есть несколько моделей, таких как телефон, видео, команда или по умолчанию для английского языка США. У Amazon Transcribe есть только одна модель, которая используется по умолчанию. Одна хорошая вещь в расшифровке Amazon заключается в том, что вы можете создать свою собственную модель. Я рассказывал об этой пользовательской модели в другом посте здесь, на Medium.

Все сравнения, которые я сделал выше, являются моим мнением. Опыт может различаться в зависимости от 1) того, какие аудиофайлы вы отправляете на задания транскрипции, 2) какой конфигурации вы настроили для вызова API транскрипции и т. д.

Если вы еще не являетесь платным участником Medium, вы можете сделать это, перейдя по этой ссылке. Вы получите неограниченный полный доступ ко всем историям на Medium. Я получу часть ваших членских взносов в качестве реферала.

Источник изображения

  1. https://www.youtube.com/watch?v=zD8NMw4T1TI&t=25s

Больше контента на plainenglish.io. Подпишитесь на нашу бесплатную еженедельную рассылку новостей. Получите эксклюзивный доступ к возможностям написания и советам в нашем сообществе Discord.