Делаем машинное обучение ориентированным на человека

Как мы объединили UX Research и ML для улучшения качества изображений в Pinterest

Шилпа Банерджи | Pinner & Business Interfaces UX-исследователь, монетизация и Ярослав Тимченко | Инженер-программист, Управление качеством контента

Когда вы слышите аббревиатуры AI и ML, какие должности обычно приходят на ум? Если вы сказали, что программист и специалист по информатике, вас большинство. Если бы вы сказали «пользователь-исследователь», вы бы увидели озадаченные лица. Как качественный исследователь, я был там. Но все меняется. Все больше и больше качественных исследователей обнаруживают, что работают на стыке исследований пользователей и машинного обучения (также известного как ML + UX). Это может означать множество вещей. Например, как исследователь UX, вы выступаете за справедливость, разнообразие и инклюзивность при построении моделей машинного обучения, спрашиваете, почему проблема должна решаться с помощью ИИ, или помогаете разработать руководящие принципы маркировки людей для обучения моделей, основанные на понимании пользователей. . Сегодня мы делимся одним из таких примеров использования Pinterest, чтобы продемонстрировать, как исследования UX в сочетании с инженерным партнерством могут помочь сделать машины ориентированными на человека.

Ориентация на высококачественный контент

Pinterest - это визуальная платформа пинов, сохраненная людьми и созданная брендами и создателями с целью побудить людей к действию. Пиннеры приходят в Pinterest за открытиями, которые заставляют их думать о нас как о положительном уголке Интернета. Поэтому крайне важно убедиться, что они видят только качественный контент и не меньше. А поскольку контент сохраняется людьми со всего мира, необходима особая бдительность. Чтобы обеспечить приятное взаимодействие с Pinners, прилагается много усилий для удаления плохого контента (например, контента для взрослых, языка ненависти, нарушений авторских прав и т. Д.). Большая часть этого обнаруживается автоматически с помощью моделей машинного обучения, но мы также объединяем эту работу с человеческой оценкой, чтобы выявить нарушения политики, а также неудачный опыт. Например, изображение с низким разрешением или изображение, помеченное или организованное вне контекста, не нарушает правил, но не очень помогает пользователям в их поисках вдохновения.

Стремясь поддерживать высокое качество, группа инженеров по качеству контента разработала сигнал для оценки изображений в рамках заданной категории (например, мода или путешествия), чтобы (1) изображения с более высокими оценками считались более полезными, более высокого качества и более эстетически приятные для Pinners (2) изображения с более низкими оценками, как правило, можно отфильтровать без ущерба для пользовательского опыта. Мы начали работу с вопроса: «Что Пиннеры определяют как высококачественную визуализацию?»

Как пиннеры воспринимают качество визуальных эффектов?

Традиционно понятие «добро» более или менее ясно, поэтому инженеры строили модели изолированно. Однако для этого конкретного сигнала речь идет не о том, что инженер считает высоким или низким качеством, а о том, что Пиннерс считает высоким или низким качеством. Следовательно, исследование UX является важной частью этих совместных усилий. Подводя итог, можно сказать, что эти усилия по обучению модели различаются по этим двум аспектам:

Мы начали с исследования. Обратите внимание, что это была первая инициатива, в которой использовались качественные данные пользователей, полученные в результате исследований UX, для создания руководящих принципов оценки на людях (в отличие от того, чтобы разработка или продукт определяли цель, которая позже проверяется с помощью автономных и онлайн-экспериментов).
Мы начали с проблем и потребностей Pinner, прежде чем приступить к разработке решения, когда большинство случаев построения моделей приводит к решению. Мы спросили: «Что пиннеры определяют как высококачественные визуальные эффекты?» - уникальный подход, который в остальном сильно зависит от усмотрения инженера, рискуя (1) личной предвзятостью (2) не отражать большинство потребностей пользователей.

Мы разбили работу на шесть этапов

Мы начали с анализа.

Как и для любого проекта, для этого также требовался набор достижимых целей для раунда 1, график и набор этапов для достижения конечной цели. Хотя у нас было исследование, чтобы начать работу над рекомендациями для пяти категорий, мы решили сначала охватить одну категорию и извлечь уроки из этого эксперимента, прежде чем переходить к другим категориям. Мы выбрали моду по нескольким причинам (1) это категория, которая требует от пользователей высококачественной визуализации, чтобы пользователи могли действовать в соответствии с идеей (например: высококачественное изображение для просмотра цветов и материала для укладки) (2) как компания, которую мы инвестировали в эту категорию.

Мы знали с самого начала, что для этого эксперимента будем привлекать людей-оценщиков; потребовалась 1 встреча, чтобы обсудить и определиться с поставщиком, с которым нужно работать, логистикой начала работы с ним, передовыми методами и стоимостью. И мы были настроены на размах!

2. Мы придерживались объективных критериев для модели.

Чтобы модель могла различать изображения хорошего и плохого качества, ей необходимо было сначала понять, как Пиннеры определяют изображения хорошего и плохого качества.

Благодаря предварительным качественным исследованиям мы определили и установили набор объективных критериев, которые Пиннерс использовал для оценки качества изображения (см. Изображение). Приоритизация была основана на том, что Пиннерс больше всего и меньше всего заботил при оценке пина. Приоритезация имеет решающее значение для (1) помогает сосредоточиться на том, что является наиболее важным, в отличие от рассмотрения всего на одном уровне, что не так, как пользователи оценивают качество изображения (2) для практического использования качественной информации для обучения модели и помогает распределять веса для обучения модели.

Первоначально мы определили и расставили по приоритетам более 13 критериев, которые Пиннеры неоднократно использовали для оценки качества изображения, но мы решили воспользоваться семью наиболее важными критериями, обычно используемыми пользователями для первого раунда рекомендаций, и извлекать уроки из результатов. Это порог, который мы, как команда, определяем внутри компании (например, высокое качество изображения должно соответствовать критериям - x.y.z .. В противном случае = низкое качество).

3. Мы проверили субъективность и предвзятость.

Чтобы не допустить предвзятого отношения к модели, важно было распознавать различия в мышлении или интерпретации идеи. Чтобы убедиться, что мы не вносим свои собственные предубеждения и предпочтения, исследования и инженеры предприняли несколько шагов:

Заранее потратили время на понимание исследования и согласование: мы потратили время на изучение идей исследования, постановку / ответ на вопросы, рассмотрение предположений, пока мы не почувствовали, что мы находимся на одной странице, прежде чем углубиться в сорняки разработки руководящих принципов.
Дали объективное определение качества изображения: существовало множество определений качества изображения, которые были бесполезны, поскольку не были достаточно объективными для использования нами. Поэтому мы пришли к определению, которое казалось точным и объективным, и которое работало во всех ситуациях.
Мы аннотировали более 500 изображений, используя семь критериев, включенных в окончательный список (двойная галочка). Конечный результат был очень удовлетворительным - мы оценили большинство изображений одинаково и были готовы к следующему шагу.

4. Мы разработали правила маркировки людей.

Следующим шагом было написание руководящих принципов как можно яснее, чтобы их могли использовать люди, занимающиеся маркировкой, и создание набора данных для обучения модели. После нескольких раундов обсуждений и нескольких черновиков руководящих принципов мы были готовы протестировать их на людях. При написании руководящих принципов мы обязательно учитывали культурные и языковые различия, а также работали над тем, чтобы предоставить достаточный контекст и вспомогательные наглядные материалы для объяснения руководящих принципов.

5. Мы оценили и уточнили рекомендации.

Чтобы убедиться, что оценщики правильно интерпретировали рекомендации и что их понимание было высоким, они были подвергнуты тестированию с набором специалистов по оценке. Во время первого раунда мы смотрели на оценки согласия рейтеров, чтобы увидеть, где они соглашаются друг с другом, и какие части руководящих принципов нуждаются в доработке. Мы несколько раз возвращались к чертежной доске и шли на компромиссы на основе отзывов оценщиков.

Согласно правилам высокое качество считалось изображением с одним человеком. Хотя это сработало для изображений с одним человеком, в этих рекомендациях все остальные изображения с несколькими людьми в нем считались низкого качества, что заставило нас изменить критерии на «1 человек в фокусе», когда присутствует несколько человек и отображается основная идея. одним человеком.

Некоторые критерии были исключены, потому что они слишком ограничивали количество подходящих изображений, в то время как другие были исключены, потому что они вызывали путаницу между оценщиками, поэтому их ответы не были надежными.

Мы приводим лишь несколько примеров критериев, потому что полный список критериев является динамическим и будет постоянно меняться по мере того, как мы работаем над следующими итерациями модели.

6. Мы обучили модель и оценили результаты.

После того, как обучающие данные были доступны, мы начали работу по обучению модели. Реальные изображения из Pinterest с тегами «женская мода», «мужская мода», «детская мода» были собраны с помощью ярлыков, автоматически предоставленных различными классификаторами на основе информации о пинах.

Архитектура модели состояла из трех скрытых слоев (FC с повторной активацией + выпадение) + один выходной слой с сигмоидной активацией. Входными данными для модели является визуальное встраивание, обученное для общих задач.

Мы запустили модель на недавно загруженных изображениях и посмотрели на изображения с лучшими и худшими оценками, чтобы убедиться, что модель работает разумно.

Что мы узнали (и что хотим узнать в будущем)

Наш предварительный анализ данных в автономном режиме показал, что у пиннеров немного выше положительная вовлеченность, если мы исключим изображения с очень низким показателем эстетики.

В настоящее время мы проводим онлайн-эксперименты, чтобы проверить нашу гипотезу о ценности этой модели для Pinners и Pinterest. Первоначальные эксперименты показали, что некоторые штифты с высокой степенью зацепления оцениваются моделью как низкие. Ручная проверка показывает, что они действительно не соответствуют требованиям, что подчеркивает, что обучение исключительно на основе данных о взаимодействии было бы неправильным (и привело бы к увеличению количества спама или кликабельных изображений).

Мы ожидаем, что модель может быть использована в качестве дополнительного сигнала для повышения (высокоэстетичные изображения) или понижения (низкоэстетичные изображения) в определенной категории.

Мы планируем развивать эту модель двумя способами:

Одна из идей - увидеть, какие пины с низким уровнем вовлеченности высоко оценены моделью, и подумать, хотим ли мы их повысить.
Мы планируем расширить модель за пределы модной категории, например, в категорию домашнего декора.

Подтверждение

Мы хотим поблагодарить Андрея Гусева (EM) за посев идеи и проведение первых итераций в категории Travel и Рахима Дайя за проведенный офлайн-анализ данных.