В этой статье кратко описывается наша работа под названием Глубокое иерархическое слияние с применением в анализе настроений, и ее цель двоякая. Первый - познакомить читателя с областью исследований мультимодального машинного обучения и подчеркнуть необходимость использования различных модальностей, чтобы инкапсулировать всю семантическую и аффективную информацию сообщения. Второй - дать представление о нашей работе и конкретно описать, как именно предлагаемый алгоритм объединяет (объединяет) различные модальности.

Почему стоит ехать мультимодальным транспортом

Человеческое общение - это сложный процесс, который, естественно, включает несколько модальностей. Например, устное предложение «Убирайся отсюда» выражает негативные чувства, если выражается в гневной манере. Однако то же самое предложение, сказанное в позитивной манере, может быть частью дружеского разговора. Этот пример демонстрирует необходимость учета акустической модальности.

Напротив, предложения «Я люблю тебя» и «Я ненавижу тебя», произносимые одним и тем же спокойным голосом, нельзя классифицировать как положительные и отрицательные предложения соответственно, без использования дополнительной информации, переносимой текстовой модальностью.

Эти простые примеры иллюстрируют необходимость учета как акустической, так и текстовой модальности при идентификации эмоции, содержащейся в сообщении. Эта задача известна как Анализ настроений, а процедура комбинирования различных модальностей - как Мультимодальное слияние.

Основная идея

Предлагаемая архитектура состоит из трех основных частей. Один - это текстовый анализатор тональности, а другой - акустический анализатор тональности. Суть предлагаемого подхода заключается в третьей части, которая представляет собой архитектуру слияния, называемую Deep Hierarchical Fusion (DHF). Акустические и текстовые сети используются в качестве кодировщиков. Это означает, что они кодируют информацию из каждой отдельной модальности осмысленным образом и обеспечивают архитектуру слияния этими единственными представлениями модальности.

Основная идея, лежащая в основе DHF, состоит в том, чтобы объединить несколько взаимосвязанных этапов и постоянно продвигать вперед мультимодальную передачу вместе с унимодальной информацией вперед.

Давайте объясним идею немного подробнее. Информация «течет» двумя способами, обозначенными вертикальными и горизонтальными стрелками. Вертикальные стрелки представляют собой унимодальные кодировки, которые передаются в объединенный классификатор, а горизонтальные - прямое распространение объединенной информации. Уровни слияния расположены иерархически, потому что цель состоит в том, чтобы предсказать тональность (третий уровень) из предложения (второй уровень), которое, естественно, состоит из словосочетания (первый уровень).

Например, предложение «Убирайся отсюда» обрабатывается на первом уровне пословно (например, «Получить», затем «Убирайся» и т. Д.), А затем представление передается на уровень предложения. Уровень предложения обрабатывает это представление вместе с одномодальными и передает свой вывод на верхний уровень, который, в свою очередь, извлекает другое представление, подходящее для выполнения классификации.

Эта идея естественным образом привносит глубину в саму архитектуру слияния, и несколько уровней слияния также организованы иерархически.

Результаты, достижения

В статье описан ряд экспериментов, чтобы продемонстрировать преимущества предлагаемого подхода. Первый результат заключается в том, что в аудиотекстовой области предложенная архитектура с небольшим отрывом превосходит все другие предложенные подходы. Еще более интересным является тот факт, что проведенные эксперименты продемонстрировали повышение производительности на 3,1% в общей производительности, что, согласно статье, является самым большим приростом, о котором сообщалось в задачах анализа аудиотекста.

Исследование абляции предполагает, что наиболее важным (с точки зрения точности) модулем является верхний уровень, затем уровень предложения и, наконец, уровень слов. Последний эксперимент направлен на изучение устойчивости модели к шуму. Что можно заметить, так это то, что для разумного количества шума объединенный классификатор превосходит одномодальный классификатор, в то время как значительная шумовая инъекция, естественно, разрушает подход.

Эффективность предложенной архитектуры приписывается множеству уровней слияния, которые вводят глубину, а также повторному использованию как слитых, так и единичных представлений модальности.

Документ Глубокое иерархическое сочетание с применением в анализе настроений [1], представленный на Interspeech 2019, Грац, Австрия, находится в открытом доступе по следующей ссылке:
https: // www. isca-speech.org/archive/Interspeech_2019/pdfs/3243.pdf

[1] Георгиу Эфтимиос, Харилаос Папайоанну и Александрос Потамианос. «Глубокое иерархическое слияние с применением в анализе настроений». Proc. Interspeech 2019 (2019): 1646–1650.