Чтение между строк с помощью ИИ

Сегодня бренды по большей части игнорируют большое количество отзывов, которые пишут каждый день покупатели. Это прискорбно, поскольку они вкладывают средства в то, чтобы услышать мнение своих клиентов, и хотят быть с ними ближе.

Однако при отсутствии надлежащих инструментов этот огромный объем ценной информации игнорируется и остается необработанным.

Например, учитывая 100 000 отзывов о продукте X, что чаще всего говорят покупатели? Какие функции наиболее популярны? Что ненавидят больше всего? Как они соотносятся с конкурентами?

Для этой задачи можно адаптировать ряд алгоритмов AI и NLP, которые выходят далеко за рамки традиционного анализа текста. Вот краткий обзор.

1. Тематическое моделирование

Тематическое моделирование извлекает ключевые темы, высказанные пользователем в обзоре. Алгоритмы, подобные LDA (Latent Dirichlet Allocation), существуют уже некоторое время, что помогает при извлечении темы.

Новые усовершенствования, такие как MG-LDA (Multi-Grain LDA), идут глубже и также извлекают иерархию отношений между темами. Например, вы можете получить соотношение, что мегапиксели являются подтемой темы «камера».

Помимо LDA, NTM (Neural Topic Modeling) использует нейронные сети для определения тем. Неконтролируемое извлечение аспектов с использованием модели нейронного внимания помогает нам различать аспекты, которые выражены слишком близко (в предложении), но должны рассматриваться по-другому. Например, «Аккумулятор и камера хороши», генерируются темы «аккумулятор» и «камера».

2. Кластеризация

После того, как темы из набора обзоров были извлечены, следующая по важности часть - объединить их вместе, чтобы избежать повторений и чтобы агрегирование имело смысл.

Например, «деньги» и «цена» - это темы, которые обычно означают одно и то же, поэтому их нужно сгруппировать вместе. Чтобы сгруппировать их вместе, они могут быть сначала преобразованы в векторы слов с помощью алгоритма, подобного word2vec, а затем векторные представления могут быть сгруппированы с использованием различных алгоритмов кластеризации.

Обратите внимание, что это NP-трудная проблема, поэтому мы можем получить разумное приближение только за конечное время. Кластеризация k-средних - один из таких алгоритмов, который выполняет итеративное уточнение с использованием евклидова расстояния для поиска центроидов в векторах.

В более новых подходах, таких как одноименная нейронная кластеризация, для этого используются нейронные методы. Задача здесь состоит в том, чтобы определить, какие функции можно использовать для увеличения кластеризованных векторов, и это открывает множество интересных возможностей - например, lda2vec, который имеет дело с векторами, полученными не только из слов, но и из предложений, абзацев и всего документа.

Данные PoS (части речи) - еще одно ключевое усовершенствование векторов, которое является недавним достижением. Поскольку кластеризация имеет дело в первую очередь с векторами, приложения графических процессоров и библиотек Tensorflow чрезвычайно помогают ускорить эти алгоритмы.

3. Подсчет очков

Третий шаг - затем оценить эти агрегированные темы с помощью оценки тональности и добавления таких параметров, как временной спад, и таких сигналов, как проверенный пользователь, мнения экспертов, полезность и т. Д.

Хотя анализ сантиментов существует уже давно, тематический анализ сантиментов по-прежнему остается проблемой, и именно на этом сейчас основное внимание уделяется. ABSA (аспектно-ориентированный анализ настроений) - область активных исследований. И здесь нейронные методы стремятся изменить правила игры.

Кроме того, для анализа настроений в целом быстрое обучение с использованием новых алгоритмов, таких как ULMFit (Universal Language Modeling Fine Tuning), помогает достичь более высокой точности с меньшим набором данных и с более быстрым временем обучения. Это также создает другие захватывающие возможности классификации, позволяющие проводить углубленный анализ, поскольку модели могут быть построены со значительно меньшими усилиями (как человеческими, так и машинными).

4. Изучение языков вне словарного запаса

Еще одним результатом этих подходов является то, что теперь можно создать словарь, который зависит от того, как люди пишут обзоры.

Это порождает новые «знания» для наших машин, которые имеют форму, что «пайса» (хинглиш) и «деньги» означают одно и то же или что и «цена» на самом деле одно и то же. Это невероятно ценный урок, позволяющий нам глубоко разбираться в обзорах.

Обратите внимание, что это не то же самое, что Машинный перевод. Однако даже подходы нейронного машинного перевода (NMT) тестируются для понимания сложных сигналов вне словарного запаса, таких как смайлики.

По мере того, как количество людей, пишущих обзоры, растет, размер словарного запаса увеличивается непредсказуемым образом, и это очень важно для машин, чтобы также «не отставать» от изменения стилей письма.

5. Непрерывное обучение

Священный Грааль всех техник - постоянно учиться на всех данных, вводимых пользователем, а также автоматически оценивать и улучшать алгоритмы, чтобы можно было проводить более широкий анализ с меньшим количеством настроек.

Это автоматически означает склонность к неконтролируемым методам и использование вертикально-независимых данных, что позволяет использовать масштабируемые подходы. Такие проекты, как NELL (Never Ending Language Learning), всегда расширяют свои знания автоматически, основываясь на том, что «считывается» машинами (с минимальным вмешательством человека или без него).

6. Помимо 5-звездочного обзора

Традиционно покупателям показывают 5-звездочную шкалу оценок и текстовое поле для сбора отзывов. Однако, узнав, что другие клиенты говорят о продуктах, теперь можно придумать лучшие вопросы, чтобы задать их последующим пользователям.

Это увеличивает вовлеченность, скорость отклика и гарантирует, что объем знаний в данных обзора со временем увеличивается, а не остается неизменным.

Такие компании, как Uber, Grubhub, Foursquare и многие другие, начали использовать этот подход для сбора значительно более точных данных от своих пользователей.

В ручном режиме на чтение 100 000 отзывов уходит почти 2 месяца, и даже после всех этих усилий выводы могут быть сомнительными. Bewgle применяет все вышеперечисленные подходы, чтобы сделать бренды более удобными при потреблении, анализе и осмыслении отзывов в любом масштабе.

Структурирование неструктурированных голосов потребителей - сложная проблема. но тот, который нас волнует и вдохновляет. В нашу команду входят бывшие сотрудники Google, бывшие выпускники Корнельского университета, бывшие эксперты по машинному обучению IISc, которые финансируются программой Techstars SAP.io.

Эта статья - гостевой пост Шантану Шаха, соучредителя Bewgle, компании, занимающейся передовыми технологиями искусственного интеллекта и машинного обучения, чтобы помочь компаниям и брендам электронной коммерции понять и использовать отзывы клиентов.

Чтение между строк с помощью ИИ

Вопросы по теме