За непрекращающимся стремлением построить объективные модели на основе необъективных данных

Системы рекомендаций стали повсеместными в нашей повседневной жизни, от онлайн-покупок до социальных сетей и развлекательных платформ. Эти системы используют сложные алгоритмы для анализа исторических данных о взаимодействии пользователей и выдачи рекомендаций на основе их предполагаемых предпочтений и поведения.

Хотя эти системы могут быть невероятно полезными, помогая пользователям находить новый контент или продукты, они не лишены недостатков: рекомендательные системы страдают от различных форм предвзятости, которые могут привести к плохим рекомендациям и, следовательно, к плохому пользовательскому опыту. Таким образом, сегодня одним из основных направлений исследований рекомендательных систем является устранение их предвзятости.

В этой статье мы рассмотрим 5 наиболее распространенных предубеждений в рекомендательных системах и узнаем о некоторых недавних исследованиях Google, YouTube, Netflix, Kuaishou и других.

Давайте начнем.

1 — предвзятость кликбейта

Везде, где есть развлекательная платформа, есть наживка для кликов: сенсационные или вводящие в заблуждение заголовки или миниатюры видео, призванные привлечь внимание пользователя и побудить его кликнуть, не представляя никакой реальной ценности. Вы не поверите, что произошло дальше!

Если мы обучаем модель ранжирования, используя клики в качестве положительных результатов, естественно, эта модель будет смещена в пользу кликбейта. Это плохо, потому что такая модель будет продвигать еще больше кликбейта для пользователей и, следовательно, увеличивать ущерб, который она наносит.

Одним из решений для устранения предвзятости моделей ранжирования от кликбейта, предложенным Covington et al (2016) в контексте видеорекомендаций на YouTube, является взвешенная логистическая регрессия, где весами являются время просмотра положительных отзывов. обучающие примеры (показы с кликами) и unity для отрицательного обучающего примера (показы без кликов).

Математически можно показать, что такая модель взвешенной логистической регрессии изучает шансы, которые приблизительно равны ожидаемому времени просмотра видео. Во время показа видео ранжируются по прогнозируемым шансам, в результате чего видео с длительным ожидаемым временем просмотра размещаются вверху рекомендаций, а кликбейт (с наименьшим ожидаемым временем просмотра) — внизу.

К сожалению, Ковингтон и др. не делятся всеми результатами своих экспериментов, но говорят, что взвешенная логистическая регрессия работает «намного лучше», чем прямое прогнозирование кликов.

2 — Смещение продолжительности

Взвешенная логистическая регрессия хорошо подходит для решения проблемы кликбейта, но она создает новую проблему: предвзятость продолжительности. Проще говоря, более длинные видео всегда имеют тенденцию смотреться дольше, не обязательно потому, что они более актуальны, а просто потому, что они длиннее.

Подумайте о видеокаталоге, который содержит 10-секундные короткие видеоролики, а также 2-часовые длинные видеоролики. Время просмотра 10 секунд в обоих случаях означает нечто совершенно разное: в первом это сильный положительный сигнал, а во втором — слабый положительный (возможно, даже отрицательный) сигнал. Тем не менее подход Ковингтона не позволил бы провести различие между этими двумя случаями и сместил бы модель в пользу длинных видео (которые генерируют более длительное время просмотра просто потому, что они длиннее).

Решение проблемы смещения продолжительности, предложенное Zhan et al (2022) из ​​KuaiShou, заключается в прогнозировании времени просмотра на основе квантилей.

Основная идея состоит в том, чтобы разбить все видео на квантили длительности, а затем также разбить все время просмотра в квантилях длительности на квантили. Например, при 10 квантилях такое присвоение может выглядеть так:

(training example 1)
video duration = 120min --> video quantile 10
watch duration = 10s    --> watch quantile 1

(training example 2)
video duration = 10s --> video quantile 1
watch duration = 10s --> watch quantile 10
...

Преобразовывая все временные интервалы в квантили, модель понимает, что 10 с «высокий» в последнем примере, но «низкий» в первом, что соответствует гипотезе автора. Во время обучения мы предоставляем модели квантиль видео и ставим перед ней задачу предсказать квантиль просмотра. Во время вывода мы просто ранжируем все видео по прогнозируемому времени просмотра, которое теперь будет отделено от самой продолжительности видео.

И действительно, этот подход работает. Авторы сообщают, что с помощью A/B-тестирования

  • Увеличение общего времени просмотра на 0,5 % по сравнению со взвешенной логистической регрессией (идея Ковингтона и др.) и
  • Увеличение общего времени просмотра на 0,75 % по сравнению с прямым прогнозированием времени просмотра.

Результаты показывают, что устранение предвзятости продолжительности может быть эффективным подходом на платформах, которые предоставляют как длинные, так и короткие видео. Возможно, вопреки здравому смыслу удаление предвзятости в пользу длинных видео на самом деле улучшает общее время просмотра пользователями.

3 — Смещение положения

Предвзятость позиции означает, что элементы с самым высоким рейтингом вызывают наибольшую заинтересованность не потому, что они на самом деле являются лучшим контентом для пользователя, а просто потому, что они имеют самый высокий рейтинг, и пользователи начинают слепо доверять ранжированию. вновь показывают. Предсказания модели становятся самосбывающимся пророчеством, но это не то, чего мы действительно хотим. Мы хотим предсказывать, чего хотят пользователи, а не заставлять их хотеть того, что предсказываем мы.

Предвзятость позиций можно смягчить с помощью таких методов, как рандомизация рангов, интервенционный сбор урожая или использование самих рангов в качестве характеристик, о которых я рассказывал в другом своем посте здесь.

Особенно проблематично то, что из-за позиционного смещения наши модели всегда будут выглядеть лучше на бумаге, чем они есть на самом деле. Качество наших моделей может медленно ухудшаться, но мы не узнаем, что происходит, пока не станет слишком поздно (и пользователи не уйдут). Поэтому при работе с рекомендательными системами важно отслеживать несколько показателей качества системы, в том числе показатели, которые количественно определяют удержание пользователей и разнообразие рекомендаций.

4 — Предвзятость популярности

Предвзятость популярности относится к тенденции модели давать более высокий рейтинг элементам, которые в целом более популярны (из-за того, что они были оценены большим количеством пользователей), а не на основе их фактического качества или актуальности для конкретного пользователя. . Это может привести к искаженному ранжированию, когда менее популярные или нишевые элементы, которые могли бы лучше соответствовать предпочтениям пользователя, не получают должного внимания.

Yi et al (2019) от Google предлагают простую, но эффективную алгоритмическую настройку, позволяющую устранить предвзятость модели рекомендации видео из-за предвзятости популярности. Во время обучения модели они заменяют логиты в своем слое логистической регрессии следующим образом:

logit(u,v) <-- logit(u,v) - log(P(v))

где

  • logit(u,v) — это логит-функция (т. е. логарифмическая вероятность) для пользователя u, взаимодействующего с видео v, и
  • log(P(v)) — логарифмическая частота видео v.

Конечно, правая часть эквивалентна:

log[ odds(u,v)/P(v) ]

Другими словами, они просто нормализуют предсказанные шансы для пары пользователь/видео на вероятность видео. Чрезвычайно высокие шансы для популярных видео учитываются так же, как умеренно высокие шансы для не очень популярных видео. И в этом вся магия.

И действительно, волшебство, кажется, работает: в онлайн-тестах A/B авторы обнаруживают улучшение общего взаимодействия пользователей с моделью беспристрастного ранжирования на 0,37%.

5 — Предвзятость одного интереса

Предположим, вы смотрите в основном драматические фильмы, но иногда вам нравится смотреть комедии, а время от времени и документальные фильмы. У вас несколько интересов, однако модель ранжирования, ориентированная на максимальное время просмотра, может чрезмерно выделять драматические фильмы, потому что это то, что вы, скорее всего, заинтересуете. Это предвзятость одного интереса, неспособность модели понять, что пользователи по своей природе имеют несколько интересов и предпочтений.

Чтобы устранить предвзятость по одному интересу, модель ранжирования необходимо откалибровать. Калибровка просто означает, что если вы смотрите драматические фильмы 80% времени, то 100 лучших рекомендаций модели должны фактически включать около 80 драматических фильмов (а не 100).

Harald Steck от Netflix (2018) демонстрирует преимущества калибровки модели с помощью простого метода постобработки, называемого масштабированием Платта. Он представляет экспериментальные результаты, демонстрирующие эффективность метода в улучшении калибровки рекомендаций Netflix, которые он количественно оценивает с помощью показателей расхождения KL. Полученные в результате рекомендации фильмов более разнообразны — на самом деле столь же разнообразны, как и фактические предпочтения пользователей — и приводят к увеличению общего времени просмотра.

Последние мысли

Резюме на память:

  1. смещение кликбейта означает, что модель смещена в пользу содержания кликбейта.
  2. смещение продолжительности означает, что модель смещена в пользу длинных видео (и против коротких видео).
  3. смещение позиции означает, что модель смещена в пользу своих собственных прогнозов, а не того, что действительно хотят пользователи.
  4. предвзятость популярности означает, что модель смещена в пользу популярного контента, а не уникальных интересов конкретного пользователя.
  5. смещение одного интереса означает, что модель не может одновременно изучить интересы нескольких пользователей.

Список предубеждений длинный — здесь мы коснулись только его поверхности — и он постоянно пополняется. В некоторых случаях устранение одной предвзятости может даже привести к появлению новой предвзятости, как мы видели в случае с кликбейтом и предвзятостью продолжительности.

Таким образом, разработка инновационных способов количественной оценки и устранения этих предубеждений остается одной из самых важных задач для современных рейтинговых инженеров. Недостаточно просто предположить, что модели ранжирования нейтральны или объективны: они всегда будут отражать предубеждения, существующие в данных, на которых они обучаются.