Выводы из Мастерской персонализации Netflix 2018

Netflix в третий раз организовал семинар по персонализации, рекомендациям и поиску. Было здорово получить приглашение на это мероприятие во время технического отпуска в районе залива Сан-Франциско. Опытные специалисты по данным со всей Кремниевой долины и за ее пределами сделали этот день богатым на знания. С подробными презентациями спикеров от i.a. Google, Microsoft, Netflix, Spotify и Университет Миннесоты рассказали, как лучше понимать своих пользователей и лучше обслуживать их. Был один предмет, по которому все спикеры согласились: классическая матричная факторизация (коллаборативная фильтрация) подошла к концу. В этом блоге я делаю выводы об их различных подходах к его преемнику. Это включает вызовы многоруких бандитов, подход с неявной обратной связью, методы ранжирования высшего уровня, тиранию большинства и алгоритмическую предвзятость.

Персонализация в Netflix

В Netflix почти вся ваша домашняя страница персонализирована: баннер, карусели, порядок, иллюстрации, текст и поиск. Вот почему они заявляют, что хорошая рекомендательная система учитывает: что, как, когда и где рекомендуется использовать. Их цель такой персонализации: «Помогите участникам найти контент для просмотра и получения удовольствия, чтобы получить максимальное удовлетворение и удержание». Выражается как:

Персонализация = максимальное удовольствие + минимизация времени поиска

Многорукие бандиты против классической матричной факторизации

В рамках этого домена Джая Кавале и Фернандо Амат (Netflix) поделились двумя тематическими исследованиями: оптимизация художественного оформления и выбор рекламных щитов. Об оптимизации оформления ранее подробно рассказывалось в их техблоге. Исследование рекламного щита было новым. Оба стремятся определить дополнительный эффект в рамках неизвестного распределения вознаграждения. Для этого требуется многорукий бандит, поскольку традиционное машинное обучение не может смоделировать этот эффект. Джая Кавале утверждала, что существует пять аспектов, с которыми классическая матричная факторизация не может справиться: временная чувствительность, скудная обратная связь, динамический каталог, нестационарная база участников и доступность страны. Вот почему она подчеркнула, что новые методы должны обеспечивать непрерывное и быстрое обучение, как многорукие бандиты. Резюме: однорукий бандит - это игровой автомат, который забирает ваши деньги. Проблема многорукого бандита - это набор вариантов выбора (игровых автоматов), которые соревнуются за ограниченные ресурсы (деньги), чтобы максимизировать совокупное вознаграждение после запросов, без полного знания свойств этих вариантов выбора в начале.

Жадный эксплойт и политики, основанные на инкрементальности

Netflix начал оптимизировать свои работы, создав несколько изображений для каждого заголовка. С целью: Порекомендовать персонализированную иллюстрацию или изображения для названия, чтобы помочь участникам решить, понравится им это название или нет. Хорошее изображение имеет 4 характеристики: репрезентативное (без кликбейта), привлекательность, информативный и дифференциальный. Многорукие бандиты получают прибыль только в том случае, если в фильме есть несколько изображений. Чтобы дать возможность дизайнерам Netflix создавать такие объемы изображений, другая команда разработала алгоритм для предоставления предложений. Мы стремимся полностью автоматизировать этот процесс. Цель оптимизации обложки - определить дополнительный эффект изображения в карусели рекомендаций. Эксперименты с произведениями искусства сопряжены с трудностями, так как изменение изображений может сбивать с толку. Это было включено в компромисс между разведкой и разработкой. Они выбрали Жадную политику эксплойтов с обычным и контекстным бандитом. Оффлайн-тест с Replay подтвердил, что оба бандита показали лучшие результаты по сравнению со случайным исходным уровнем. Высочайший подъем контекстного бандита доказывает, что контекст здесь имеет значение. Их онлайн-тест на 125 миллионах пользователей показал, что оптимизация обложек наиболее выгодна для менее известных названий.

Рекламный щит на домашней странице Netflix - наиболее заметное место для продвижения названия. Цель этого тематического исследования ясна и проста: Успешно представить контент нужному участнику. Решение более сложное по двум причинам. Во-первых, домашняя страница Netflix считается дорогой недвижимостью. Это может повысить рейтинг, однако при наличии множества альтернатив и неизвестных преимуществ альтернативные издержки высоки. Во-вторых, заголовки могут отображаться на нескольких позициях. Например, популярные заголовки также отображаются в карусели В тренде. По этим причинам рядом с политикой использования жадных эксплойтов тестируется новая политика, основанная на инкрементальности. Цель этой политики - не просто вероятность игры. Модель также должна учитывать, если бы пользователь все равно играл в игру, инкрементный эффект (∆Pplay). Эта вероятность воспроизведения определяется на основе пользователя, пула кандидатов заголовков / изображений и его характеристик. Цель состоит в том, чтобы порекомендовать название, которое дает наибольшую дополнительную выгоду от рекламного щита. Автономный тест с Replay показал, что политика, основанная на инкрементальности, имела меньший подъем, чем жадная политика, однако разница минимальна. Онлайн-тест показывает, что с помощью этой политики Netflix может сместить взаимодействие пользователей с популярного названия на менее известный, продвигая его на рекламном щите. Диаграмма разброса визуализирует, что заголовок A больше выигрывает от рекламного щита, чем заголовок C. Соответственно, с точки зрения вероятности игры, драгоценный рекламный щит лучше использовать с этой бандитской политикой.

Одним из направлений будущих исследований многоруких бандитов в Netflix является использование цели удержания пользователей (удовольствия) вместо рейтинга кликов (CTR). В долгосрочной перспективе они стремятся расширить этот подход, добавляя все больше и больше вариантов решения проблемы многоруких бандитов. С целью создания полностью персонализированного веб-сайта или приложения: как по содержанию, так и по дизайну. Джая Кавале и Фернандо Амат поделились впечатляющей работой в своей презентации (Слайды). RTL Netherlands также изучает многоруких бандитов для персонализации нашего i.a. Платформы RTL News и Videoland. Общая структура необходима для успешного тестирования нескольких типов многоруких бандитов и политик. Фреймворк плагинов Netflix с его замкнутой системой обсуждался лишь вкратце. Этот замкнутый цикл обеспечивает сбор данных о предоставленных рекомендациях и соответствующем поведении пользователей для дальнейшего повышения качества этих онлайн-рекомендаций. В этой интересной связанной презентации Эллиот Чоу подробнее расскажет об этом.

Перспектива неявной обратной связи от Microsoft

Джая Кавале упомянул о необходимости объективных данных по обучению многоруких бандитов. Адит Сваминатан (Microsoft) работал над интересным усовершенствованием пакетного обучения на основе отзывов бандитов, чтобы улучшить это. Вместе с Торстеном Йоахимом и Мартеном де Рийке он успешно создал новый выходной слой для глубокой нейронной сети, чтобы использовать зарегистрированную контекстную обратную связь бандитов для обучения. Сбор этой ценной обратной связи, например, системных журналов рекомендаций, проще по сравнению со сбором контролируемых данных. Однако эти данные часто содержат систематическую ошибку отбора. Чтобы проиллюстрировать риск такой предвзятости, Адит Сваминатан привел пример предвзятости выживания с самолетами времен Второй мировой войны. Повреждения возвращающихся самолетов были изучены Центром военно-морского анализа, чтобы минимизировать потери самолетов во время следующих миссий. Наиболее очевидным подходом было добавление дополнительной брони в области с наибольшим количеством пулевых отверстий. Статистик Абрахам Вальд (1943) не согласился и аргументировал противоположный подход. Он отметил, что эти возвращающиеся самолеты пережили свои миссии, а это означало, что пулевые отверстия были в некритических областях. Успешное усиление самолетов требовало, чтобы они сосредоточились на участках с небольшими повреждениями. Эта предвзятость к выживанию стала хорошо известным примером риска игнорирования отсутствующей информации.

Своими действиями на платформе пользователь также делится сбивающими с толку сигналами. Когда он просто просматривает платформу или следует рекомендациям рекламных стимулов. Поскольку эти данные обратной связи смещены, модель не должна стремиться к минимизации среднеквадратичной ошибки. И Адит Сваминатан (Microsoft), и Ануп Деорас, и Давен Лян (Netflix) подчеркнули, что больше не нужно сосредотачиваться на минимизации среднеквадратичной ошибки (RMSE) для создания прогнозов. Это заблуждение. Да, это легко, но при этом игнорируется ценность открытых пространств. Факторизация матрицы отбрасывает тот факт, что пользователь не смотрел товар по какой-либо причине. Данные не пропадают случайно. Может случиться так, что название недоступно в регионе, но это не значит, что оно непопулярно. Он утверждал, что следует сместить акцент на перспективу неявной обратной связи.

Чтобы включить эту неявную обратную связь, новая цель должна заключаться в минимизации контрфактических рисков. Это означает, что стандартная оптимальная оценка дисперсии должна быть заменена эмпирической оценкой риска (с регуляризацией дисперсии). Адит выбрала самонормализованную систему оценки обратной склонности. Эта оценка декомпозирована и переформулирована, чтобы обеспечить обучение стохастическому градиентному спуску. Эта комбинация, получившая название BanditNet, позволяет эффективно обучать глубокие нейронные сети с беспрецедентными объемами данных. Подход BanditNet протестирован с использованием архитектуры ResNet20. В своем исследовательском эксперименте по распознаванию визуальных объектов они показали, что при достаточной обратной связи BanditNet имеет более низкий уровень ошибок, чем при обычном обучении с полной информацией. Соответственно, своими исследованиями Адит также поддерживает рост алгоритмов многоруких бандитов, позволяющих выбрать правильное действие в нужное время (Слайды, Бумага, Ресурсы).

Два метода ранжирования в топ-N

В двух презентациях были представлены решения для улучшения качества рекомендательных систем высшего качества. Система рекомендаций Top-N генерирует список ранжированных элементов, которые, вероятно, могут заинтересовать пользователя. Основная проблема для этого типа рекомендаций: Как повысить рейтинг соответствующих элементов? Задача состоит в том, чтобы улучшить качество, будучи масштабируемым. Евангелия Кристакопулу (Университет Миннесоты) выбрала линейный метод, уделяя особое внимание аналогичному поведению пользователей. Ануп Деорас и Давен Лян (Netflix) изучали возможности глубоких скрытых моделей с помощью вариационных автоэнкодеров.

Глобально-локальный подход Миннесотского университета

Evangelia Christakopoulou (Университет Миннесоты) признала мелкую детализацию между группами пользователей с двойным подходом. Она предпочитает методы с данными неявной обратной связи по элементам пользователя. Наряду с глобальной моделью элемент-элемент с аспектами, общими для всех пользователей, она создала локальные модели элемент-элемент для каждого подмножества пользователей. Пользователь может переключать подмножества. Она экспериментировала с 3 вариантами:

  • Чистое разложение по сингулярным числам (SVD)
  • Глобальный локальный SVD с различными подмножествами (sGLSVD)
  • Global Local SVD с разными рангами (rGLSVD)

Эти варианты тестируются на четырех наборах данных: транзакции продуктового магазина, Набор данных MovieLens 10M, подмножество Набор данных Flixter и подмножество Набор данных Netflix Prize. Производительность оценивается по количеству попаданий (ЧСС). Это количество пользователей, чей элемент в тесте присутствует в списке рекомендаций размера N, деленное на общее количество пользователей. Глобально-локальный подход превзошел классический подход SVD для всех наборов данных (Слайды, Ресурсы и Связанная статья).

Помимо нашей онлайн-деятельности, RTL Netherlands управляет восемью телевизионными каналами. Каждый из этих каналов транслирует контент для разных, частично совпадающих целевых аудиторий. В то время как наши цифровые платформы обеспечивают в основном единообразный опыт для тех же самых аудиторий. Эти целевые аудитории можно рассматривать как подмножества с общими и конкретными интересами. Применение этого глобального и локального метода, например, к нашим цифровым платформам, может обеспечить более согласованную стратегию распространения перед дальнейшей диверсификацией.

Вариационные автоэнкодеры от Netflix

Кроме того, Anoop Deoras и Dawen Liang из Netflix считают, что следует уделять больше внимания деталям. Они предупредили, что рекомендации - это не проблема с большими данными, а небольшая проблема с данными. Пользователи взаимодействуют только с небольшой частью заголовков. Следовательно, модели должны быть сосредоточены на эффективном понимании разреженных сигналов, которыми делится пользователь. Они представили на Netflix эволюцию скрытых моделей, описав, как они переходили от мелких к глубоким скрытым моделям. Их цель состояла в том, чтобы учесть наблюдаемые и отсутствующие записи в матрице пользовательских элементов. Эта неявная обратная связь слишком ценна, чтобы ею можно было пренебречь. Однако ограниченные возможности моделирования неглубоких моделей, таких как матричная факторизация и скрытое распределение Дирихле, приводят к худшей предсказательной способности. Я был впечатлен исследованием Давена Ляна глубоких нейронных сетей с вариационными автокодировщиками (VAE).

Давен Лян отметил, что полиномиальная вероятность с моделями латентных факторов, по-видимому, мало изучена для совместной фильтрации, в то время как аспект нелинейности может дать более подробные рекомендации (Бумага, Связанные разговоры). Этот подход был применен в тематическом исследовании Next Play на Netflix. Следующее воспроизведение - это рекомендованный заголовок для просмотра в конце просматриваемого заголовка. Целью этого элемента персонализации является: Максимизация вероятности того, что пользователь будет напрямую играть в следующую игру. Он расширяет VAE на совместную фильтрацию для неявной обратной связи. Параметр регуляризации был применен к цели обучения, чтобы обеспечить лучшую производительность. Их исследования показывают, что кодирование разнообразных нелинейных взаимодействий с пользователем действительно может привести к превосходной предсказательной способности. Принципиальный байесовский подход может работать даже лучше. Поскольку рекомендательная система высшего уровня представляет собой небольшую проблему с данными, она очень подходит для байесовского вывода (слайды). Хотя сначала мне нужно продолжить изучение его исследований, я считаю, что это может быть многообещающим методом для замены некоторых из наших текущих алгоритмов совместной фильтрации. Особенно на нашей быстрорастущей платформе видео по запросу, где пользователи также взаимодействуют только с небольшим количеством заголовков. Очевидно, может быть полезно улучшить наши рекомендации, включив их неявную обратную связь с улучшенной скрытой моделью. Это поможет нашим пользователям открыть для себя разнообразный доступный внутренний и международный контент.

В продолжение Ив Раймонд (организатор и Netflix) сослался на свою презентацию RecSys о Важность времени и причинности в рекомендательных системах. Действительно стоит прочитать на эту тему.

Тирания большинства со стороны Google

Эд Чи из Google сделал упор на то, чтобы не ограничиваться точностью. Он согласился с Евангелией Христакопулу в том, что глобальные оптимальные модели не могут служить разнообразию для всех пользователей. Он усиливает тиранию большинства. Он предупредил, что поведение частых пользователей является серьезной угрозой для качества рекомендательных систем. Активность этих пользователей слишком сильно влияет на некоторые модели. Вот почему его цель: Модель, которая хорошо предсказывает для всех пользователей и всех элементов. Он разделяет два подхода:

3 практических урока Spotify, которые помогут предотвратить алгоритмическую предвзятость

Генриетт Крамер из Spotify поделилась 3 прагматическими уроками, извлеченными при обучении машин:

  1. Человеческие решения действительно влияют на результаты машинного обучения, иначе говоря, алгоритмическую предвзятость.
  2. Превратите сложные области исследования в минимальные жизнеспособные шаги.
  3. Сложные модели не всегда являются решением.

Во время разговора с Генриеттой Крамер, также голландкой, мы заметили, что в Нидерландах уделяется ограниченное внимание проблеме алгоритмической предвзятости. Это не совсем странная ситуация, поскольку алгоритмическая предвзятость - это тема, которая привлекает все большее внимание в отрасли. Эд Чи согласился с Генриеттой Крамер в отношении важности устранения алгоритмической предвзятости и связанных с этим рисков. Он отметил, что Сундар Пичай только что опубликовал Принципы искусственного интеллекта Google.

Три урока были проиллюстрированы примером голосового интерфейса Spotify. В Spotify они обнаружили, что в их голосовом интерфейсе были трудности с выявлением и исправлением недоступного контента. Интерфейс не смог обработать все запросы. Особенно аббревиатуры, неанглийские названия и переключение кода приводят к неправильным предложениям песен. Например, очень популярный трек Prblms от 6LACK - это двойная беда. Поскольку Prblms произносится как проблемы, а 6LACK как черный. Исследования показывают, что хип-хоп и кантри имеют более специфические лингвистические практики, чем другие жанры, что приводит к более аномальным трекам. Аномальные треки были недоступным контентом для голосового интерфейса. Яркий пример алгоритмической предвзятости.

Поскольку не было стандартного инструмента для предотвращения этого алгоритмического предубеждения, Spotify разработал новое решение, состоящее из 3 шагов. Во-первых, универсальный метод выявления контента, который недостаточно обслуживается голосовым интерфейсом. Во-вторых, топология лингвистических практик недостаточного обслуживания контента. В-третьих, аннотируйте недостаточно обслуживаемый контент с помощью CrowdFlower, чтобы улучшить доступность. Тест показал, что такой подход с псевдонимами для исполнителя и заголовков значительно улучшает доступность этого недостаточно обслуживаемого контента (Бумага и Связанные разговоры).

Анриетта Крамер заявила, что музыка - это эмоции. Очень узнаваем, потому что в RTL Netherlands я наблюдаю то же самое по телевидению. На этом графике она визуализировала музыкальные вкусы в зависимости от сезона. Это также показывает, что интересы пользователей не статичны, а динамичны. Аналогичное замечание сделал Эд Чи, когда он упомянул, что рекомендательные системы - это не статическая проблема, а проблема динамической точности.

Заключительные мысли

Наконец, спасибо Netflix за организацию этого потрясающего семинара в их штаб-квартире. Собрать это яркое сообщество, чтобы поделиться сценой и поговорить, было просто захватывающим. Если эти заметки вызвали у вас интерес к деталям, я рекомендую вам прочитать их подробные статьи, проверить доступные слайды или изучить другие ресурсы, на которые я ссылаюсь. Количество и масштабы этих коммерческих исследовательских проектов доказывают, что персонализация - это не товар. Это ключевая компетенция, которая позволяет компаниям предоставлять каждому пользователю индивидуальный подход. Пользователям нужны персонализированные услуги, которые доставляют им максимум удовольствия и сводят к минимуму раздражающее время поиска. Семинар также подтвердил, что мы с коллегами находимся на правильном пути к данным. Мы используем ту же технологию и исследуем похожие алгоритмы. Однако у нас нет такого опыта в тестировании этих преемников матричной факторизации на производстве. Благодаря всем презентациям и обсуждениям я вернулся в Нидерланды с новыми идеями, которые нужно было реализовать. И после получения множества вопросов о том, где находится офис RTL в Долине, я должен обязательно обсудить это с моим генеральным директором.