Мы будем исследовать новую загадку науки о данных, касающуюся лояльных пользователей, в статье под названием «Получают ли лояльные пользователи лучшие рекомендации? Понимание точности рекомендаций с точки зрения времени»

Ключевые моменты

В научной письменной форме каждая статья, выражение и предложение должны передавать идею или концепцию в научной манере. Чтобы лучше понять научное письмо, важно сначала определить ключевые моменты, представленные в статье. Это помогает создать мысленную карту статьи и понять, как каждая из представленных ключевых идей связана друг с другом. Кроме того, определение ключевых моментов может помочь запомнить важные концепции и идеи, представленные в документе, что облегчает запоминание и применение представленной информации.

  • Количество накопленных взаимодействий: совокупное взаимодействие, сумма взаимодействий пользователей до момента времени 𝑡
  • Период активного времени: количество дней с момента первого взаимодействия пользователя с любым элементом в системе до времени 𝑡
  • Давность: количество дней с момента предыдущего взаимодействия пользователя до времени 𝑡

Сравнительные модели

В статье для сравнительного анализа были выбраны некоторые модели машинного обучения и глубокого обучения. Мы суммируем модели несколькими предложениями, чтобы получить представление о них. Тем не менее, дальнейшее изучение может помочь понять предысторию и основы.

Байесовский персонализированный рейтинг на основе неявной обратной связи (BPR)

В байесовском методе персонализированного ранжирования для решения задачи используется байесовский подход. Этот подход использует функцию правдоподобия для определения вероятности события с учетом параметра модели и априорную вероятность для выражения априорных знаний о параметре модели. Комбинируя функцию правдоподобия и априорную вероятность, можно рассчитать апостериорную вероятность, которая представляет обновленные знания о параметре модели после наблюдения за данными. Байесовский метод персонализированного ранжирования часто используется в рекомендательных системах, где цель состоит в том, чтобы предсказать предпочтения пользователя в отношении элемента на основе исторических данных о взаимодействии пользователя с элементами. Это не наша главная цель в этом обзоре, но я настоятельно рекомендую изучить статью для дальнейшего понимания [5].

Нейронная совместная фильтрация (NeuMF)

NeuMF, или Neural Matrix Factorization, представляет собой рекомендательную модель, которая сочетает в себе мощь Generalized Matrix Factorization (GMF) и плотный слой, также известный как многослойный персептрон. Эта уникальная комбинация позволяет NeuMF фиксировать как линейные, так и нелинейные отношения между функциями пользователя и объекта.

В частности, слой GMF изучает взаимодействия функций низкого ранга между пользователем и встраиванием элементов, в то время как плотный слой фиксирует взаимодействия функций высокого ранга. Выходные данные этих двух слоев затем объединяются и проходят через сигмовидный слой активации [6].

Сверточная нейронная сеть на основе светового графа (LightGCN)

Подходы на основе графов становятся все более популярными в области машинного обучения. Одним из таких подходов является LightGCN, который основан на ключевой идее удаления обучаемых весов и нелинейных функций активации. Вместо этого единственными изученными параметрами являются начальные вложения для каждого узла графа. Этот метод не только ускоряет процесс, но и упрощает модель за счет уменьшения количества параметров, которые необходимо изучить. [7].

Самостоятельная последовательная рекомендация (SASRec)

Если рецепт глубокого обучения включает механизм внимания, мы можем однозначно сказать, что он требует более сложного подхода по сравнению с обычными моделями машинного обучения. Механизмы внимания все чаще используются в сочетании с последовательными данными, такими как последовательности пользовательских событий, чтобы лучше понять отношения между различными элементами последовательности. Механизм внутреннего внимания, в частности, продемонстрировал большой потенциал в улавливании сложных зависимостей между элементами последовательных данных. Позволяя модели фокусироваться на разных частях последовательности в разное время, механизм самоконтроля может фиксировать долгосрочные зависимости в данных, что приводит к повышению производительности при выполнении широкого круга задач [8].

Самостоятельное внимание с учетом временного интервала для последовательных рекомендаций (TiSASRec)

TiSASRec — это версия модели SASRec с учетом времени, как указано в заголовке исследования. Эта модель учитывает временной аспект данных, добавляя информацию о времени в последовательной форме. Это делает модель более восприимчивой к временной перспективе данных, что позволяет ей лучше фиксировать закономерности и тенденции, основанные на времени. Включая информацию о времени, TiSASRec может предоставлять более точные и детализированные рекомендации, адаптированные к изменяющимся предпочтениям пользователей с течением времени [9].

Экспериментальные наборы данных

В ходе исследования 𝑘-ядерная фильтрация была адаптирована для Yelp, Amazon Music и Amazon Electronics. После 𝑘-основной фильтрации все пользователи и элементы в наборе данных будут иметь как минимум 𝑘 взаимодействий. В зависимости от размера и разреженности набора данных для Yelp и Amazon Electronics было выбрано 10 ядер, а для Amazon Music — 5 ядер.

  • MovieLens-25M: «25 миллионов оценок и один миллион тегов применены к 62 000 фильмов 162 000 пользователей. Включает данные о геноме тегов с 15 миллионами оценок релевантности по 1 129 тегам».
  • Yelp: «Набор данных Yelp является частью данных о предприятиях, обзорах и пользовательских данных для использования в личных, образовательных и академических целях. У него около 7 миллионов отзывов».
  • Amazon Reviews : "Набор данных состоит из отзывов о продуктах и ​​метаданных Amazon, включая 142,8 млн отзывов за период с мая 1996 г. по июль 2014 г.".

Метрики оценки

HR(Hit Rate)@: создание рекомендаций для пользователя и рекомендуемых элементов, которые пользователь купил, просмотрел или нажал. Как видите, мы измеряем существование, а не ранжирование. В метрику мы не включаем порядок рекомендаций.

NDCG (Normalized Discounted Cumulative Gain)@:NDCG, широко используемый показатель оценки в информационно-поисковых и рекомендательных системах для измерения качества ранжированных результатов поиска. При этом учитывается как релевантность каждого результата, так и его позиция в рейтинге. Другими словами, NDCG измеряет эффективность системы рекомендаций, учитывая, насколько хорошо рекомендуемые элементы связаны с интересами пользователя и насколько хорошо они ранжированы с точки зрения релевантности. Метрика нормализована до значения от 0 до 1, где 1 — это высшая оценка, указывающая, что рекомендуемые элементы полностью соответствуют интересам пользователя и ранжируются в наиболее релевантном порядке [4].

Результаты эксперимента

Самое интересное в обзоре — экспериментальные результаты. Мы собираемся изучить результаты с трех разных точек зрения. Давайте начнем.

Количество взаимодействий:

Как мы видим с точки зрения HR и NDCG, мы можем четко сказать, что лояльные пользователи не очень заинтересованы в рекомендациях. Эту разницу хорошо видно для Movielens и Yelp. С другой стороны, в наборах данных Amazon для SASRec и TiSASRec как лояльные, так и нелояльные пользователи имеют почти одинаковые показатели успеха.

Период активности:

Для активного периода эта разница в целом не столь значительна. Активный период времени является более сложным аспектом, чем количество пересечений. Более объективное исследование должно учитывать еще один аспект, и мы собираемся перейти к нему сейчас.

Последняя перспектива показывает параллельные результаты с числом взаимодействий. По статистике, лояльные пользователи получают не больше удовольствия, чем нелояльные пользователи с различными типами рекомендательных систем. Мы должны упомянуть, что с подходом SASRec мы можем ясно видеть, какая разница рассчитывается.

Заключение

Мы кратко суммируем статью, и она показывает, что «лояльные пользователи получают не больше удовольствия, чем нелояльные пользователи с точки зрения временной перспективы». Я настоятельно рекомендую понять заключительную часть оригинальной статьи. А пока будьте здоровы и спокойны.

Использованная литература:

1 — https://towardsdatascience.com/paper-review-neural-collaborative-filtering-explanation-implementation-ea3e031b7f96

2 — https://youtu.be/O4lk9Lw7lS0

3 — https://medium.com/@benalex/implement-your-own-music-recommender-with-graph-neural-networks-lightgcn-f59e3bf5f8f5

4 — https://medium.com/@huseyinvarolerdem/ndcg-for-ranking-evaluation-fd8bf45179fc

5 — https://arxiv.org/pdf/1205.2618.pdf

6 — https://liqiangnie.github.io/paper/p173-he.pdf

7 — https://arxiv.org/pdf/2002.02126.pdf

8 — https://arxiv.org/pdf/1808.09781.pdf

9 — https://cseweb.ucsd.edu/~jmcauley/pdfs/wsdm20b.pdf