Мы можем получить представление о том, чего хотят люди, наблюдая за их взаимодействием с системой. С голосовым взаимодействием есть несколько подсказок о том, насколько хорошо пользователи могут перемещаться по запросам. Вот некоторые показатели, которые можно использовать для определения взаимодействия:

  • Триггеры, за которыми не следуют запросы
  • Повторные запросы
  • Перефразированные запросы (то же намерение, разные слова)
  • Время между триггером и запросом
  • Время между запросами
  • Длина запроса
  • Плотность фраз (количество слов, деленное на время записи или размер аудиофайла)

Некоторые из этих показателей могут быть доступны создателям Навыков/Действий, а некоторые — тем, кто внедряет Alexa Voice Service или Embedded Google SDK. Благодаря запатентованному голосовому взаимодействию эти данные могут быть полностью перехвачены.

Больше данных о взаимодействии можно получить, если мы пойдем более детально:

  • Громкость запроса (SNR или просто уровень микрофона после успешного результата STT)
  • Фоновый шум во время запроса

Если мы наложим поверх других сервисов, мы сможем получить еще больше информации:

  • Обнаружение эмоций
  • Возраст и пол говорящего
  • Обнаружение музыки
  • Распознавание говорящего

Если мы идентифицируем эти элементы, мы сможем начать придумывать корреляции между желаниями пользователей и тем, что они получают от систем, которые мы создаем. Затем мы можем использовать данные для информирования системных ответов.