Выявление предвзятости в поиске и рекомендациях

Потому что первый шаг в контроле предвзятости — это демонстрация того, что предвзятость существует.

Предвзятость — это проблема, которую чрезвычайно легко внедрить в любую систему, но чрезвычайно трудно выявить и решить. В Vimeo, как и во многих других технологических компаниях, мы пытаемся принимать решения о наших продуктах на основе данных в надежде на создание инструментов и добавление функций на основе реального пользовательского опыта. Но это поднимает множество вопросов о предвзятости: как собираются наши данные? И являются ли наши данные репрезентативными для всех наших пользователей? А кто тогда наши пользователи?

Зависимость от существующих данных имеет тенденцию отдавать предпочтение уже существующим системам. Например, когда мы спрашиваем, нажимает ли больше пользователей эту кнопку синего или светло-синего цвета, мы можем собирать данные только о кнопках, которые мы им уже показывали, и только от людей, которые используют наши продукты. Некритическое использование этих данных для информирования наших решений или для обучения алгоритмов может затем усилить любое предубеждение, исходившее от этих пользователей или от нашего первоначального выбора вариантов, которые мы представили пользователю. Мы не можем знать, в какой степени эти предубеждения вредны, без большей прозрачности и оценки.

В настоящее время мы смотрим на активность пользователей, чтобы оценить все, от того, был ли запуск продукта успешным, до рассмотрения того, какие инструменты создать, которые облегчили бы их жизнь. Большая часть этой работы выполняется вручную, когда менеджеры по продуктам, аналитики бизнес-аналитики и т. д. просматривают отчеты и принимают решения о следующих шагах. По мере того, как мы все больше движемся к подходам, основанным на машинном обучении, зависимость от данных только растет, а вместе с ней и возможность внесения или усиления предвзятости.

Вот почему команда поиска и рекомендаций начинает свой путь к лучшему поиску, проверяя предвзятость, начиная с основ. В частности, мы хотели начать с вопроса:

Кто такие пользователи Vimeo? Какие из них используют поиск, особенно личный поиск? Это когда пользователь ищет свой собственный контент, например, свою библиотеку видео и папок Vimeo. Это вариант использования поиска, для которого наша команда больше всего сосредоточена на оптимизации.
Выявляет ли наша существующая поисковая система предвзятость, и если да, то как это влияет?
Что может случиться с любым существующим предубеждением, если мы перейдем к поиску, основанному на машинном обучении?

Изучение поиска на Vimeo

Следующей задачей нашей команды является создание передового персонального поиска, с помощью которого пользователи в командах могут беспрепятственно находить свой собственный контент и контент членов своей команды. У нас уже есть очень функциональная система поиска информации, основанная на сопоставлении текста по умолчанию Elasticsearch, алгоритме под названием BM25, который основан на статистическом показателе TF-IDF. BM25 учитывает, сколько слов в вашем запросе соответствует полям, по которым мы ищем, где более редкие совпадения (например, для слова трискаидекафобия) и совпадения по более коротким полям способствуют более высокому показателю релевантности. Мы также вручную увеличиваем совпадения в тех полях, которые, как мы обнаружили, являются важными, по крайней мере, среди большинства наших пользователей.

Проблема с использованием BM25 и обычного сопоставления старого текста заключается в том, что он не может удовлетворить потребности всех наших пользователей и их многочисленные варианты использования. Некоторые люди организуют свои файлы с помощью сложной системы заголовков и бесконечных суффиксов v1, final и really the actual final version, или они одержимо помечают все любой системой тегов, которая им доступна. Когда они делают это, они часто уже предполагают, что это будут их лучшие условия поиска, а не какое-то другое поле без тегов. Наши пользователи ничем не отличаются.

Алгоритмы поиска, такие как BM25, создают в этих средах несколько проблем. Например, полевые повышения сложны и их трудно поддерживать с течением времени, поскольку интересы пользователя постоянно меняются. Кроме того, пользователи не всегда выполняют поиск по точному ключевому слову, поэтому такие алгоритмы, как BM25, основанные на сопоставлении ключевых слов, и TF-IDF неэффективны для контекстуализации. Есть также много других факторов окружающей среды, влияющих на процесс поиска пользователя. В результате факторы релевантности нелинейны, а такие алгоритмы, как BM25, не могут хорошо обобщаться на большое количество пользователей.

Чтобы лучше справляться с этими проблемами, наша команда движется к поисковым алгоритмам, основанным на машинном обучении, таким как LTR или Learning to Rank, которые могут включать часть этого контекста в то, как алгоритм ранжирует результаты поиска. Однако, как и при любом машинном обучении, использование больших объемов данных в моделях LTR может усилить предвзятость, будь то сами данные, система, из которой они были собраны, или способы, которыми мы представляем данные в качестве входных данных для модели. .

Все о ЛТР

LTR — это класс моделей машинного обучения, который учится автоматически ранжировать результаты поиска с учетом запроса и другой информации о поиске. Чаще всего LTR — это задача обучения под наблюдением, в которой обучающие данные состоят из запросов и списков результатов. В обучающих данных каждый запрос имеет список ранжированных результатов, где каждый результат имеет показатель релевантности, представляющий его важность для запроса, а более высокий показатель релевантности указывает на большую важность для запроса.

Используя векторы признаков пар запрос-результат и связанные с ними оценки релевантности, LTR стремится обучить модель ранжирования, которая может назначать оценку релевантности данной паре запрос-результат. Для получения дополнительной информации см. Краткое введение в обучение ранжированию Ханга Ли.

Под наблюдением модели LTR оцениваются путем сравнения ранжированных списков наземной истины с ранжированными списками, предсказанными моделью. Обычно используемые показатели включают нормализованный дисконтированный кумулятивный прирост (NDCG), среднюю среднюю точность (MAP) и тау Кендалла. Все они измеряют некоторую разницу между упорядоченными списками, но с разным акцентом и степенью детализации. Например, NDCG может учитывать реальную оценку релевантности для каждого результата в списке, в то время как тау Кендалла измеряет разницу только по позиции в списке (результат a находится первым в этом списке, но третьим в этом списке). . Входными данными для модели LTR является запрос с n результатами поиска и соответствующими им n оценками релевантности. С помощью этих данных модель учится прогнозировать упорядоченный набор результатов в соответствии с релевантностью запроса. Более подробное обсуждение всего этого смотрите в Википедии.

Одной из самых больших проблем при обучении контролируемой LTR-модели является сбор данных о реальных истинах, ранжированных людьми, что особенно сложно для личного поиска, когда каждый запрос пользователя не относится к одному и тому же набору документов. Например, когда вы ищете invitation в своем почтовом ящике, основная правда или правильный для вас набор ранжированных результатов будет отличаться от правильных результатов для другого человека, который имеет совершенно другой набор электронных писем для поиска. Чтобы смягчить это, потребуется собрать намного больше реальных примеров, чем вам потребуется при оптимизации для общедоступного поиска.

Учитывая это и то, что мы все еще находимся на исследовательской стадии нашего исследования, мы решили не использовать данные, помеченные человеком. Чтобы получить соответствующий набор данных, мы полагаемся на неявные пользовательские сигналы, такие как клики и взаимодействия, для информирования о псевдоназемном ранжировании с использованием данных, которые у нас были доступны из нашей модели BM25 в производстве.

Для начала мы создали набор данных, состоящий из 30 000 уникальных личных поисковых запросов, который мы назвали ViPrS-30k (произносится как velociraptors 30K). ViPrS-30k содержит текстовые функции запроса-результата и отформатирован таким образом, чтобы его можно было усвоить современными моделями LTR. Наши экспериментальные модели LTR обучаются с использованием нормализованного дисконтированного кумулятивного выигрыша (NDCG), что означает, что модели пытаются максимизировать NDCG при обучении ранжировать результаты. Релевантный результат для некоторого поиска, который оказывается в нижней части рейтинга, влечет за собой больший штраф. Мы реализуем и оцениваем следующие модели: LambdaMART, Регрессор дополнительных деревьев, Регрессор случайного леса, Регрессор повышения градиента, Линейная регрессия и Логистическая регрессия. LambdaMART здесь лучше всех, так как это один из наиболее эффективных вариантов LTR во многих задачах ранжирования. Интуитивно и с риском чрезмерного упрощения LambdaMART использует ряд простых деревьев решений, чтобы попытаться устранить ошибки, которые не могло решить последнее дерево решений. В этом случае ошибки представляют собой неправильно ранжированные результаты поиска.

Мы планируем продолжать экспериментировать с этими моделями, поскольку они дают нам возможность кодировать более сложные функции данных и, как следствие, обеспечивают большую персонализацию для наших пользователей. Модели LTR тестируются с использованием системы измерения смещения и служат для сравнения с нашей текущей моделью BM25 в производстве.

Понимание предвзятости

Согласно Как смягчить предвзятость в системах ИИ Майкла Маккенны, модели должны быть законными, этичными и надежными. Поэтому, изучая предвзятость в поиске на Vimeo, мы хотим знать о различиях в расовой, половой и региональной областях и разрабатывать стратегии смягчения для учета вредоносной предвзятости, которая может отражаться в наших системах. С увеличением количества исследований и внимания, уделяемого алгоритмической предвзятости в поисковых системах, у большинства людей появилось представление о том, как предвзятость может повлиять на публичный поиск. Поисковые системы играют огромную роль в том, как мы ориентируемся в огромном мире Интернета. Однако при личном досмотре потенциальное воздействие может быть не столь очевидным, но оно может быть столь же значительным. Подумайте о своих электронных письмах, файлах в вашем облаке, обо всех видео, которые вы храните на Vimeo, и так далее. Мы хотим, чтобы поиск во всех этих доменах работал хорошо.

При разработке модели поиска, основанной на машинном обучении, мы хотим изучить, насколько релевантны результаты поиска запросу и различается ли эта релевантность в зависимости от демографии пользователей. Модели поиска могут непреднамеренно вводить предубеждения, оптимизируя результаты для определенной группы пользователей, что приводит к неравенству в обработке. Кроме того, вредные стереотипные предубеждения могут быть закодированы в результатах, полученных из запроса, путем усиления неявных ассоциаций в данных. Рассмотрим запрос engineer, который может вернуть пять результатов, четыре из которых — мужчины-инженеры, а один — женщина-инженер. Это предубеждение усиливает профессиональные стереотипы, основанные на половой принадлежности.

Преимущество оценки предвзятости в этих областях с помощью этой структуры означает, что любую методологию оценки, которую мы разрабатываем, можно обобщить для любой поисковой системы, будь то система на основе BM25 или LTR. Пока эта система выдает результаты в ранжированном списке по релевантности, мы сможем провести тот же анализ на предвзятость.

О нашей методике

Для нашего первоначального исследования предубеждений в нашей модели поиска мы сосредоточились на гендерных предубеждениях. Одной из проблем проведения исследований предвзятости является отсутствие данных о чувствительных атрибутах пользователей. Например, из 139 111 755 пользователей, выполнивших личный поиск, 12% необязательно раскрывали свои местоимения. Кроме того, поскольку наши поисковые данные очень широко распространены, проводить контролируемые эксперименты сложно. Мы сочли необходимым начать с изучения гендерной предвзятости, поскольку между нашими пользователями существуют большие различия в отношении местоимений. Но из этих 12 процентов круговая диаграмма на рис. 1 показывает, что в личном поиске у нас непропорционально много людей, которые используют местоимения «он/его», по сравнению с «она/она» и «они/они». Это неравномерное представление не обязательно вредно, но оно может оказать влияние на работу нашей поисковой системы. Одним из вредных последствий отсутствия справедливости в моделях является чрезмерное обобщение, когда вывод делается на основе информации, ограниченной одной группой или не переносимой на другие группы. Гендерная предвзятость была выбрана в качестве отправной точки для исследования предвзятости, поскольку данные, которые мы собираем, связанные с полом, имеют меньше возможных значений на нашей платформе и, таким образом, подходят для более интуитивно понятных и простых показателей. Пользователи Vimeo выбирают свои местоимения тремя вариантами: она/она, он/его и они/они. Они также могут не раскрывать информацию. (Гендер, конечно, гораздо сложнее, и в действительности имеет бесконечное число возможных значений, но наш первоначальный анализ несколько упрощен и работает только с теми данными, к которым у нас есть доступ.)

В рамках исследования нашего пространства данных мы визуализировали, как выглядят наши необработанные данные запроса, и проанализировали взаимосвязь между поисковыми запросами и их соответствующими полами, исследуя закономерности между тем, какой пол выполнял поиск, и самими запросами. Чтобы зафиксировать распределение данных запроса по полу, мы выполнили анализ t-SNE или t-распределенное стохастическое соседнее встраивание, неконтролируемый нелинейный метод, который в основном используется для исследования данных и визуализации многомерных данных; подробнее см. в Блоге SAS. Проще говоря, t-SNE дает вам ощущение или интуицию о том, как данные расположены в многомерном пространстве. Мы сегментировали запросы, по полу которых выполнялся поиск, и представили каждый запрос в виде вектора (или списка) чисел, называемого встраиванием. Существуют простые способы представления текста в виде чисел, такие как TF-IDF (который включает в себя, среди прочего, подсчет количества появлений слов) и гораздо более сложные способы, такие как прогон текста через модели глубокого обучения. Мы пробовали оба типа встраивания: TF-IDF встраивания и сгенерированные моделями-трансформерами (известный пример — BERT). Поскольку данные запроса так широко распространены, нам пришлось выполнить анализ главных компонент, чтобы еще больше уменьшить размерность (или упростить их представление).

На рис. 2 показана кластеризация мужских (синий) и женских (красный) запросов, встроенных в TF-IDF. Здесь заметна кластеризация мужских и женских групп, что указывает на некоторую разницу в распределении запросов между мужчинами и женщинами.

Точно так же на рисунке 3 слева показана отчетливая кластеризация поисковых запросов, выполненных мужчинами и женщинами, которые были встроены с использованием модели преобразователя msmarco-ditilbert, которая представляет собой модель на основе BERT, обученную на наборе данных MSMARCO, которая может создавать представления — то есть генерировать вложения — предложений. Этот анализ показывает, что в данных запроса существует некоторая структура и взаимосвязь в отношении того, какой пол выполнял поиск. Сходство внутри кластера важно установить в качестве предпоследнего шага в количественной оценке смещения. Если интересующая нас категория не может быть сгруппирована, может быть сложно исследовать отношения предубеждений.

Мы также хотели визуализировать взаимосвязь между данными запроса и его первым результатом. Поскольку мы хотели увидеть явную предвзятость в результатах, мы использовали заголовок видео Vimeo или папку пользователя для представления результата поиска. Запросы были сегментированы по тому, какой пол выполнял поиск, для каждого поискового запроса извлекался лучший результат, а запросы и результаты были встроены с использованием TF-IDF. Когда два фрагмента текста представлены в виде чисел с использованием одной и той же модели, мы можем рассматривать их как точки на графике и вычислять их расстояние друг от друга. Это измерение расстояния говорит нам, насколько похожи тексты.

В этом случае мы хотим рассчитать сходство между поисковым запросом и лучшим результатом поиска для этого поискового запроса. Хорошо работающая поисковая система должна давать очень похожие результаты по соответствующему запросу. Рассматривая этот показатель по полу, мы можем получить очень приблизительную оценку производительности нашей поисковой системы для пользователей разного пола.

Мы использовали косинусное сходство и евклидово расстояние, которые представляют собой просто разные способы вычисления расстояния, чтобы измерить разницу между запросами и результатами для каждого пола; см. Евклидово расстояние против косинусного расстояния Криса Эммери для получения дополнительной информации о разнице между ними, хотя вы, возможно, уже знакомы с евклидовым расстоянием, если помните вычисление длины линии в школе. Чтобы собрать данные для этого эксперимента, мы использовали нашу текущую модель BM25 в производстве, которая усиливается при совпадении названий. Гипотеза этого исследования заключается в том, что если расстояние между запросами одного пола и их результатами с самым высоким рейтингом меньше, чем у другого пола, это может указывать на некоторое несоответствие в производительности.

На рис. 4 показаны евклидовы расстояния между заголовками и запросами для повторных экспериментов с нормализацией. Тенденция к росту показывает, что пользователи, которые используют местоимения он/его, получают результаты поиска, которые больше похожи на их запросы, чем пользователи, которые используют местоимения она/она или они/их.

Точно так же на рис. 5 показано косинусное сходство между заголовками и запросами. Это показывает, что пользователи, которые используют местоимения он/его, имеют наибольшее сходство между заголовками и запросами. Этот анализ предоставляет больше доказательств неравенства между гендерными группами и служит основополагающим шагом в более формальной количественной оценке этих неравенств.

Количественная оценка гендерной предвзятости

Чтобы количественно оценить гендерную предвзятость в наших запросах и результатах, мы хотим убедиться, что наша метрика интерпретируема, обобщаема для разных моделей и имеет низкую сложность. Поскольку наша структура исследования предвзятости анализирует гендерную предвзятость в результатах поиска, метрика должна оценивать текстовые данные, такие как запросы и заголовки результатов. Учитывая эти критерии, мы выбрали смещение ранжирования и величины документов в качестве наших основных показателей для анализа. В исследовании Навида Рекабсаза и Маркуса Шедла Влияют ли модели нейронного ранжирования на интенсивность гендерных предубеждений? утверждается, что, хотя модели нейронного ранжирования обеспечивают надежное встраивание запросов и результатов, они также кодируют социальные предубеждения из-за данных, которые они предварительно получили. обучался на.

Система измерения предвзятости, предложенная Рекабсазом и Шедлом, использует набор слов, тесно связанных с полом, для измерения степени женских и мужских понятий в документе, которую они определяют как величина документа. Эти измерения используются для расчета различий в женских и мужских величинах документов, извлеченных с помощью их модели смещения ранга.

Чтобы использовать модель, мы определили два списка слов: определяющие пол слова, такие как дочь и внук, которые являются беспристрастными индикаторами пола; и стереотипные слова, такие как медсестра и босс, которые являются предвзятыми индикаторами пола. Эти два списка были получены от Рекабсаза и Шедла, а также из статьи Мужчина для программиста, как женщина для домохозяйки? Устранение предвзятости встраивания слов Толга Болукбаси, Кай-Вей Чанг, Джеймс Зоу, Венкатеш Салиграма и Адам Калай.

Используя слова, определяющие пол, или стереотипные слова, женская или мужская величина результата рассчитывается с использованием суммы журнала количества вхождений слов в документе:

В этих уравнениях magᶠ(d) обозначает женскую величину документа d, нижний индекс G f представляет собой набор определяющих слов женского пола, а #‹w, d› относится к количеству вхождений слова w в d. Следуя тем же формулировкам, документ мужской величины magᵐ(d) определяется с помощью набора определяющих слов мужского пола G с нижним индексом m. (Это объяснение взято из статьи Рекабсаза и Шедла, о которой мы упоминали ранее.)

Другими словами, гендерная принадлежность документа измеряется количеством раз, когда каждое гендерное слово появляется в документе. Чтобы вычислить женскую величину для документа d, мы просматриваем каждое слово в списке женских определений, берем логарифм того, как часто оно встречается, и суммируем логи.

Ранговая погрешность основывается на измерениях величины и определяет гендерную погрешность модели поиска, используя весь список результатов поиска, созданных моделью для набора запросов. Систематическая ошибка ранжирования основана на средних показателях гендерной значимости документов в верхней части списка результатов поиска и разнице между мужскими и женскими величинами документов. Систематическая ошибка ранжирования рассчитывается по пороговому значению t, которое представляет первые t результаты, полученные по запросу. Используя это определение, положительная оценка смещения ранга представляет собой смещение в сторону мужских понятий, а отрицательная оценка представляет смещение в сторону женских понятий для результатов поиска по конкретному запросу.

Следующая формула вычисляет индекс qRaBᶠ t (q) или смещение результатов поиска в сторону понятий женского рода для запроса q. Выбирается некоторая точка отсечки t, так что мы рассматриваем только первые t результаты поиска, которые появляются по запросу. Для запроса q мы вычисляем женскую величину, как описано в (1), для каждого результата поиска до t, а затем вычисляем среднее значение этих величин:

Используя эти значения, метрику RaB запроса q, индекс RaB t (q) и метрику RaB модели поиска по всем запросы, индекс RaB t, определяются следующим образом:

Чтобы распространить этот анализ на все запросы, вы должны использовать две формулы в (3). Первый индекс RaB t (q), который оценивает смещение ранга запроса q в некоторой точке отсечки t, вычисляется путем вычитания средней значимости женского пола в результатах поиска для запроса q или индекса qRaBᶠ t (q) из запроса q средняя мужская величина в результатах поиска или индекс qRaBᵐ t (q). Затем, наконец, чтобы вычислить общее смещение ранга в индексе RaB t, мы берем среднее значение всех индексов RaB t (q) для каждого запроса.

Эти две метрики легко интерпретируются, поскольку они основаны на доле слов, определяющих пол, в запросах и результатах. Их также можно обобщить для нашей текущей модели BM25 и моделей LTR, поскольку они являются явными мерами систематической ошибки, а формат вывода как для BM25, так и для LTR представляет собой список ранжированных результатов.

К экспериментам

Мы провели два эксперимента по измерению гендерных отношений между гендерными поисковыми запросами и соответствующими им результатами. Первый эксперимент — это в основном базовый уровень для измерения степени, в которой гендерные запросы приводят к гендерным результатам, с использованием метрики систематической ошибки ранга, которую мы описали в предыдущем разделе. Например, мы можем ожидать, что запрос для father может включать в себя результаты поиска с мужчина в названии видео. Второй эксперимент измеряет степень стереотипности и предвзятости в результатах поиска в ответ на гендерный запрос. Здесь мы ищем тип предвзятости, при котором запрос woman может генерировать результаты поиска со стереотипными гендерными словами, такими как кулинария или горничная, тогда как запрос man может не отображать такое же предубеждение.

Первый эксперимент

Для первого эксперимента мы извлекли два набора запросов и результатов. Первый набор содержал запросы с нейтральными словами мужского рода, а второй набор содержал запросы с нейтральными словами женского рода. Цель состояла в том, чтобы проанализировать долю нейтральных мужских и женских понятий в этих двух наборах результатов с использованием систематической ошибки ранжирования.

На рис. 6 показано ранговое смещение результатов, полученных по запросам с нейтральными понятиями мужского рода с использованием нашей текущей поисковой системы (BM25). В частности, это показывает, что в результатах есть предвзятость к нейтральным мужским понятиям.

На рис. 7 показано ранговое смещение результатов, полученных из запросов с нейтральными понятиями женского пола. Мы обнаружили, что в результатах есть смещение в сторону нейтральных женских концепций. Это интуитивный результат, потому что в запросах были нейтральные мужские и нейтральные женские понятия. Мы ожидаем, что результаты будут отображать предвзятость в отношении их соответствующего пола в названиях, поскольку BM25 повышается при совпадении названий.

Точно так же модель LambdaMART «обучение для ранжирования» также показывает аналогичные тенденции, когда результаты смещены в сторону мужских понятий (см. рис. 8).

На рис. 9 показано то же самое, но с женскими понятиями.

Второй эксперимент

Во втором эксперименте мы вычисляем величину документа из (1) выше, используя список стереотипных слов, извлекая два набора данных так же, как в первом эксперименте. Цель состоит в том, чтобы исследовать предвзятые ассоциации между нейтральными определяющими пол словами в запросах и их стереотипными аналогами в результатах.

На рис. 10 показана доля стереотипных слов мужского рода в двух наборах данных.

Аналогичным образом, на рисунке 11 показана доля стереотипных слов женского рода в двух наборах данных.

Обратите внимание, что на рис. 11 гораздо больше стереотипных слов женского рода в результатах, полученных из запросов, содержащих нейтральные слова женского рода, чем нейтральные слова мужского рода. И наоборот, на рис. 10 нет стереотипных слов мужского рода в результатах, полученных из запросов, содержащих нейтральные понятия женского рода. Этот результат важен, потому что он показывает, что модель поиска отражает негативные гендерные стереотипы.

Однако результаты модели LambdaMART показывают, что в результатах, полученных из запросов с нейтральными словами мужского рода, преобладала доля женских стереотипных понятий (см. рис. 12).

Рисунок 13, однако, показывает, что доля стереотипных слов мужского рода в результатах, полученных из запросов с нейтральными понятиями мужского рода, по-прежнему выше. Чтобы понять, почему LambdaMART достиг результатов, отличных от BM25, необходим дальнейший анализ, чтобы определить наличие стереотипных слов в наших данных.

Одно из объяснений этой разницы в результатах состоит в том, что существует большая доля запросов с нейтральными понятиями мужского рода (см. рис. 14). Из-за несоответствия в размере выборки запросы с мужскими понятиями могут быть чрезмерно представлены и, следовательно, с большей вероятностью содержат стереотипные слова в своих результатах. Кроме того, модель LambdaMART может усиливать это несоответствие в своих прогнозах.

Подводя итог

Эти эксперименты показывают, что модели могут кодировать гендерную статистику, присутствующую в наших данных, и могут отражать некоторые вредные гендерные стереотипы, которые непреднамеренно навязываются пользователями. Эта исследовательская работа показывает, что важно иметь метрики для измерения предвзятости в нашей поисковой системе и, в будущем, иметь смягчающие меры, когда мы движемся к моделям LTR.

Заглядывая вперед

Представленная здесь система измерения смещения может также применяться для изучения других смещений в наших системах. В будущем мы надеемся расширить нашу структуру, чтобы устранить предубеждения в других измерениях, таких как раса, религия и регион, и мы надеемся исследовать гендерные аспекты помимо мужчин и женщин.

Мы также хотим изучить влияние предвзятости позиции в нашей поисковой системе. Мы планируем улучшить нашу структуру, включив другие показатели, которые объясняют вредные предубеждения в нашей системе. Кроме того, мы планируем провести дополнительный анализ смещения в пространстве функций, поскольку мы исследуем поиск на основе машинного обучения.

Результаты проверки концептуальных моделей показывают, что предстоит провести еще много исследований, чтобы выяснить, откуда берутся предубеждения в нашем пайплайне. Расширяя наши экспериментальные концептуальные модели LTR, мы также хотим улучшить наш набор данных ViPrS-30k, собрав больше наземных данных, ранжированных человеком.

Чтобы обеспечить честный и равноправный поиск для всех наших групп пользователей, важно, чтобы мы продолжали измерять и устранять ошибки в наших алгоритмах. Одним из негативных последствий перехода к поиску на основе машинного обучения является отсутствие интерпретируемости и объяснимости, обеспечиваемой этими системами. В результате мы стремимся постоянно поддерживать нашу систему измерения смещения и внедрять стратегии по смягчению последствий, где это необходимо.

Инженерный блог Vimeo выражает благодарность Сильвене Чан за ее вклад в эту историю.

Мы нанимаем

Ваш следующий этап начинается с Работа в Vimeo.