Обнаружение сарказма уже много лет является ключевой проблемой НЛП. Его значение связано с его влиянием на анализ настроений, поскольку сарказм может изменить полярность предложения. В этом блоге я привожу очень краткое изложение статьи «Являются ли функции Word Embedded полезными для обнаружения сарказма?», написанной Joshi et al. (2016) [1].

Методы, основанные на правилах, такие как полуконтролируемое сопоставление с образцом, могут привести к упущению тонких форм сарказма, поскольку они основаны на словах, несущих настроение в предложениях, или на некоторых предположениях о формах саркастических предложений. Возьмем, к примеру, следующую известную цитату австралийской писательницы Ирины Данн:

«Женщине нужен мужчина, как рыбе велосипед».

Сарказм в этом предложении вызван не сентиментальным словом, а общим фактом. Следовательно, необходимы более совершенные подходы.

Джоши и др. предпринял первую попытку использовать функции, основанные на встраивании слов, в качестве простого приращения к современным технологиям обнаружения сарказма. В отсутствие слов, передающих настроение, они пытаются уловить несоответствие контекста, используя сходство/несоответствие на основе вектора слов, которое измеряется косинусным сходством. Их набор данных состоит из котировок на GoodReads [2]. В своих экспериментах они использовали четыре различных типа встраивания слов (LSA [3], GloVe [4], Dependency-based [5] и Word2Vec [6]) с четырьмя различными типами функций, взятых из предыдущей работы. Однако они расширили эти функции, чтобы получить лучшие результаты. В случае Word2Vec добавление трех из этих функций привело к улучшению F-показателя не более чем на 5%. Аналогичные улучшения наблюдаются и в случае встраивания других слов.

Если вы заинтересованы в дальнейшем чтении, я настоятельно рекомендую проверить части результатов и анализа ошибок в их статье.

использованная литература

[1] Джоши А., Трипати В., Патель К., Бхаттачарья П. и Карман М. 2016. Полезны ли функции на основе встраивания слов для обнаружения сарказма? В Материалы конференции по эмпирическим методам обработки естественного языка 2016 г., страницы 1006–1011, Остин, штат Техас, 1–5 ноября 2016 г. Ассоциация вычислительной лингвистики.

[2] https://www.goodreads.com/

[3] Томас К. Ландауэр и Сьюзен Т. Дюме. 1997. Решение проблемы Платоса: теория латентного семантического анализа приобретения, индукции и представления знаний. ПСИХОЛОГИЧЕСКИЙ ОБЗОР, 104(2):211–240.

[4] https://nlp.stanford.edu/projects/glove/

[5] Омер Леви и Йоав Голдберг. 2014. Встраивание слов на основе зависимостей. В Материалы 52-го ежегодного собрания Ассоциации компьютерной лингвистики, ACL

[6] https://code.google.com/archive/p/word2vec/