Распознавание эмоций с помощью сочетания аудио и видео функций

Понимание эмоционального состояния людей постоянно привлекает внимание многих ученых и исследователей. Фактически, в течение многих лет психологи, нейробиологи, психиатры и компьютерные ученые пытались разгадать комбинацию переменных, которая лучше всего описывает определенные эмоциональные состояния.

В недавнем прошлом в нескольких исследованиях предпринимались попытки предсказать валентность и возбуждение с помощью алгоритмов машинного обучения (ML). Исследователи постоянно изучают важность использования алгоритмов машинного обучения для интеграции контекстной информации в моделирование для автоматического прогнозирования эмоций.

Новый мультимодальный подход объединяет визуальную и акустическую информацию для прогнозирования уровней возбуждения и валентности говорящего

В недавнем исследовании исследователи предлагают объединенный подход к непрерывному распознаванию эмоций, который сочетает в себе визуальные и слуховые модальности в их репрезентативных пространствах для прогнозирования уровней возбуждения и валентности. Подход использует предварительно обученную CNN и передачу обучения для извлечения функций из видеокадров, которые фиксируют эмоциональное содержание. Для слухового содержимого в качестве характеристик используется минималистичный набор параметров, таких как просодика, возбуждение, речевой тракт и спектральные дескрипторы.

Слияние этих двух модальностей выполняется на уровне функций перед обучением одного регрессора опорных векторов (SVR) или на уровне прогнозирования после обучения одного SVR для каждой модальности. Предлагаемый подход также включает методы предварительной обработки и постобработки, которые положительно влияют на улучшение коэффициента корреляции согласования (CCC). Экспериментальные результаты для прогнозирования спонтанных и естественных эмоций на наборе данных RECOLA показали, что предлагаемый подход использует преимущества дополнительной информации о зрительных и слуховых модальностях и обеспечивает значения CCC 0,749 и 0,565 для возбуждения и валентности, соответственно.

Возможное использование и эффекты

Несмотря на то, что разрабатываются новые и экзотические стратегии слияния, традиционные схемы слияния все еще могут обеспечивать надежные результаты. Но опять же, предлагаемый подход в этом случае превосходит большинство существующих подходов, и результаты показывают большое влияние трансферного обучения в модели для видеомодальности.

Эта работа позволяет как исследователям, так и разработчикам извлекать и фиксировать эмоциональный контент высокого уровня из функций видеокадра.

Подробнее: https://arxiv.org/abs/1906.10623

Спасибо за чтение. Прокомментируйте, поделитесь и не забудьте подписаться на нашу еженедельную рассылку, чтобы получать самые свежие и интересные исследования! Вы также можете подписаться на меня в Twitter и LinkedIn. Не забудьте 👏, если вам понравилась эта статья. Ваше здоровье!

Распознавание эмоций с помощью сочетания аудио и видео функций