Что представляют собой значения моделей скрытых признаков для матрицы пользователей и элементов в коллабаративном фильтре?

При разложении матрицы рейтингов для рекомендательной системы матрица рейтингов может быть записана как P * t (Q), где P представляет матрицу факторов пользователя, а Q представляет матрицу факторов элемента. Размерность Q может быть записана как ранг * количество элементов. Мне интересно, действительно ли значения в матрице Q представляют что-нибудь, например вес предмета? А также, есть ли способ узнать какие-то скрытые закономерности в Q-матрице?


person user8308521    schedule 20.07.2017    source источник


Ответы (1)


Думайте о функциях как о важном направлении изменения многомерных данных. Представьте себе 3-мерную диаграмму, на которой показано, какой из 3 предметов купил пользователь. Это будет аморфная капля, но фактическая ось или ориентация капли, вероятно, не вдоль осей x, y, z. Векторы, по которым он ориентируется, являются объектами в векторной форме. Возьмите это к огромным размерным данным (много пользователей, много элементов), и эти многомерные данные очень часто могут быть охвачены небольшим количеством векторов, большая часть отклонений за пределами этих новых осей очень мала и может даже быть шумом. Таким образом, алгоритм, подобный ALS, находит эти несколько векторов, которые представляют большую часть диапазона данных. Следовательно, «характеристики» можно рассматривать как основные способы изменения данных или, другими словами, как архетипы для описания того, как один элемент отличается от другого.

Обратите внимание, что факторизация PQ в рекомендателях основана на отбрасывании незначительных функций для достижения потенциально огромного сжатия данных. Эти незначительные функции (те, которые учитывают очень небольшую вариацию во вводе пользователя / элементов) могут быть отброшены, потому что они часто интерпретируются как шум и на практике дают лучшие результаты, если их отбросить.

Сможете ли вы найти скрытые закономерности; Конечно. Новые более мелкие, но плотные элементы и пользовательские векторы можно обрабатывать с помощью таких методов, как кластеризация, KNN и т. Д. Они представляют собой просто векторы в новом «пространстве», определяемом новыми базисными векторами - новыми осями. Если вы хотите интерпретировать результат таких операций, вам нужно будет преобразовать их обратно в элемент и пользовательское пространство.

Суть ALS (факторизация матрицы PQ) заключается в преобразовании вектора характеристик пользователя в пространство элементов и ранжирование по весам элементов. Рекомендуются предметы с наивысшим рейтингом.

person pferrel    schedule 20.07.2017