Анализ тональности – это инструмент классификации текста, который анализирует сообщение, например твит или комментарий на Tripadvisor, и определяет, является ли основная тональность позитивной, негативной или нейтральной. Это отличный инструмент для быстрого извлечения информации или классификации текстовых потоков в социальных сетях. Или это может помочь бизнесу понять настроения вокруг своего бренда, отслеживая онлайн-разговоры.

Можем ли мы найти способ классифицировать отрицательные и положительные отзывы на основе текста?

Машинное обучение может быть мощным инструментом для классификации текста, но обычно требуется, чтобы алгоритм был обучен на наборе «помеченных» данных или уже классифицирован вручную, прежде чем он сможет обобщать новые данные. И, к сожалению, не всегда есть.

Вместо этого в этом исследовании мы использовали лексикон и инструмент анализа настроений на основе правил, известный как Vader (из VADER: экономная модель на основе правил для анализа настроений текста в социальных сетях Си Джей Хатто и Эрика Гилберта) это очень хорошо работает при анализе текста из социальных сетей.

VADER создает четыре показателя тональности: первые три, положительные, нейтральные и отрицательные, представляют долю текста, попадающую в эти категории. Последняя метрика — это составной балл, представляющий собой нормализованную сумму всех рейтингов лексики, которые были стандартизированы в диапазоне от -1 до 1.

Мы передали алгоритму набор отзывов от гостей Airbnb за период с 2009 по 2016 год, предоставленный Airbnb Inside.

Распределение Sentiment Analyzer между двумя городами очень похоже. Графики показывают, что только немногим более 6% отзывов имеют сильное положительное отношение (оценка >0,5), а большинство (61%) находятся в умеренном диапазоне 0,2–0,4, в то время как большинство отзывов нейтральны (93%). Однако негативные настроения очень низки, так как большинство комментариев имеют показатель негативности менее 0,1. Поэтому, хотя гости склонны не перебарщивать с положительными комментариями, отрицательные они оставляют только в крайних случаях.

Сумма баллов дает нам интересную информацию: в то время как более 88% гостей в Сиэтле оставляют в целом положительные отзывы, только 63% гостей в Бостоне делают это: наши друзья с восточного побережья кажутся немного более суетливыми. Причина может быть простой: они платят больше. Бостон в основном дороже, чем Сиэтл, так как средняя цена листинга в Сиэтле составляет 137 долларов по сравнению с 201 долларом в Бостоне. На графике ниже показаны тенденции изменения цен в двух городах:

Заключение

С распространением социальных сетей предприятия все чаще обращаются к обзорам, рейтингам и другим формам онлайн-мнения, чтобы управлять своей репутацией или продвигать свою продукцию. Огромный объем доступных данных требует автоматизации процесса фильтрации шума и определения релевантного контента для действий. Им потребуются более сложные инструменты анализа настроений, которые выходят за рамки использования отдельных терминов, но учитывают культурные факторы, языковые нюансы и различные контексты.