Часть 1: Распознавание речи от Одри до Алексы

Распознавание речи - это технология, которая может распознавать произносимые слова, которые затем могут быть преобразованы в текст. Распознавание голоса - это часть распознавания речи, основанная на голосе.

История распознавания речи

Первые системы распознавания речи были ориентированы на числа, а не на слова.

В 1952 Лаборатории Белла разработали систему Одри, которая могла распознавать один голос, произносящий цифры вслух.

В 1962 году IBM представила первую машину для распознавания речи Shoebox. Он мог понимать 16 слов: ноль, один, два, три, четыре, пять, шесть, семь, восемь, девять, минус, плюс, промежуточный итог, всего, ложь и выкл.

В 1970-х годах программа исследования понимания речи (SUR), проводимая Министерством обороны США и DARPA, поддерживала исследования в этой области. Система распознавания речи гарпий, разработанная на факультете компьютерных наук в Карнеги-Меллон, могла понимать около 1000 слов.

Bell Lab также представила систему, которая могла понимать несколько голосов.

В 1980 году IBM разработала говорящую пишущую машинку для людей с нарушениями зрения, а в следующем году представила говорящий терминал с дисплеем.

По мере роста популярности графических пользовательских интерфейсов в 1980-х годах IBM разработала одну из первых программ чтения с экрана, работающую с новой технологией.

Кроме того, в 1980-х годах был открыт статистический метод под названием Скрытая марковская модель (HMM), который оценивал вероятность того, что неизвестные звуки являются словами, а не просто используют слова и ищут звуковые паттерны.

В 1990-х годах персональный компьютер сделал возможным большой прогресс в мире распознавания речи.

В 1999 IBM представила IBM Home Page Reader, говорящий веб-браузер, который помогал пользователям с ослабленным зрением слышать весь спектр содержимого веб-страниц в логичной и понятной форме.

Программное обеспечение Dragon Dictate и система распознавания голоса VAL (голосовой портал) от Bell South продолжили дальнейшее развитие в этой области.

В 2000-х годах Google представила приложение голосового поиска Google, которое включало 230 миллиардов слов из поисковых запросов пользователей. Это приложение не только сделало распознавание речи доступным для миллионов людей, Google также использовало его для сбора данных о пользовательских поисках, чтобы помочь предсказать, что говорит пользователь, чтобы еще больше повысить точность своего приложения.

В 2010-х годах Apple запустила Siri. Amazon Alexa и Google Home были еще немногими приложениями для распознавания голоса, доступными потребителям. Благодаря всем этим достижениям точность распознавания речи также быстро улучшалась, поскольку технологические компании пытались снизить уровень ошибок в словах.

Каковы некоторые применения голосовых / речевых технологий?

  1. Автоматическое обслуживание клиентов: распознавание позволяет эффективно обрабатывать вызовы с помощью вопросов автоматической маршрутизации.
  2. Безопасность водителя: набор номера без помощи рук для пользователей телефонов, голосовая навигационная система, голосовое управление и возможности поиска для автомобильных радиоприемников.
  3. Доступные вычисления: для лиц с нарушениями зрения, подвижности или другими нарушениями.
  4. Виртуальные помощники: виртуальные помощники на наших телефонах, умные колонки дома.
  5. Программное обеспечение преобразования речи в текст: расшифровывайте интервью, подкасты, диктовку, переводите и добавляйте субтитры.

Будущее

Когда в 1962 году была представлена ​​технология распознавания речи, невозможно было даже представить, какие многочисленные применения технологии распознавания речи есть у нас сейчас.

Благодаря достижениям в области искусственного интеллекта и растущим объемам речевых данных, которые можно легко добыть, голос становится одним из доминирующих пользовательских интерфейсов в мире технологий.

Сегодня эта технология прочно вошла в нашу повседневную жизнь с помощью множества голосовых приложений, таких как

  • Кортана от Microsoft
  • Siri от Apple
  • Amazon Alexa
  • Голосовые функции Google

Наши повседневные гаджеты, такие как телефоны, часы, компьютеры и даже холодильники, все больше интегрируются с голосовой интерактивностью, обеспечиваемой искусственным интеллектом и машинным обучением.

Дивья Сикка - студент-посол в программе студенческих послов Inspirit AI. Inspirit AI - это предуниверситетская программа повышения квалификации, которая знакомит любопытных старшеклассников всего мира с искусственным интеллектом через живые онлайн-классы. Узнайте больше на https://www.inspiritai.com/.

Ресурсы

Чувствуете, что собираетесь прыгнуть в кроличью нору, читая эти невероятные статьи?
Не волнуйтесь, мы чувствуем то же самое.
В кроличью нору можно не только прыгнуть. с нами, но у нас есть более чем достаточно статей, которые помогут вам выпрыгнуть;)
Чтобы узнать о некоторых из лучших идей о Medium от самых молодых умов поколения, посетите
студенты x студенты.