Важность и использование анализа настроений растет с каждым днем, поскольку компании и предприятия используют его для улучшения своих услуг, отслеживая удовлетворенность, поведение и потребности клиентов с течением времени, что дает им представление о своих собственных клиентах и ​​продуктах. Тем не менее, есть несколько проблем с определением точной полярности настроений от отрицания и сарказма до спама и фейка.

Автоматическое обнаружение сарказма — важный шаг для правильного прогнозирования тональности текста. Опрос, проведенный Джоши, Бхаттачарьей и Хаттачарьей, опубликованный в ACM Computing Survey’17 под названием; «Автоматическое обнаружение сарказма: опрос» собирает всю предыдущую работу, проделанную по этой теме, на основе использованных наборов данных и подходов к проблемам и тенденциям.

На основе опроса наиболее распространенным решением проблемы является формулировка ее как задача классификации; классифицируя текст на саркастический или нет, наиболее распространенными подходами к проблеме являются:

  1. Подходы, основанные на правилах: обнаружение сарказма на основе определенных правил; например, настроение хэштега зависит от обнаружения противоречия между значением твита и используемыми тегами, алгоритм генерации словаря на основе синтаксического анализа проверяет наличие отрицательной фразы в положительном предложении, тогда как другой классификатор проверяет наличие отрицательной фразы в положительном предложении. положительный глагол в отрицательной ситуации.
  2. Статистические подходы:SVM, логистическая регрессия, наивный байесовский анализ, деревья решений и нечеткая кластеризация использовались для классификации текстов на саркастические или нет, но эти подходы сильно зависят от извлеченных функции, которые используются. Большинство из них используют набор слов (BoW) в качестве функций, но другие также используют функции, основанные на семантическом сходстве, смайликах, контрфактуальности, а также включающие многоточие, гиперболу и дисбаланс в свой набор функций.
  3. Подходы, основанные на глубоком обучении: они используются либо в качестве экстрактора признаков за счет сходства между встраиваниями слов, либо в качестве модели классификатора за счет объединения нескольких различных архитектур нейронных сетей.

Согласно опросу, основные проблемы автоматического обнаружения сарказма варьируются от точности и качества аннотаций данных и искаженных наборов данных до сложной взаимосвязи между сарказмом и эмоциями как характеристикой.

Дополнительную информацию см. в Джоши Б., К., 2017 г., «Автоматическое обнаружение сарказма: обзор», ACM Computing Survey (ACM-CSUR), статья №73, том 50, выпуск 5.