Автор: Zhiying Gu, Qianrong Wu

Краткое содержание

Что делать, если вы хотите измерить влияние изменения на свой бизнес, но не можете провести рандомизированный контролируемый эксперимент? Это именно та проблема, с которой мы столкнулись при измерении преимуществ нового инструмента, используемого подразделениями Airbnb для автоматизации части своего рабочего процесса. Из-за организационных ограничений было просто невозможно случайным образом назначать инструмент агентам операций; даже если бы мы могли делать случайные назначения, размер выборки был слишком мал, чтобы генерировать достаточную статистическую мощность. Итак, что же нам делать? Мы представили себе параллельную вселенную, в которой операционные агенты, не использующие новый инструмент, во всех отношениях идентичны тем, кто его использует, — иными словами, мир, в котором критерии назначения почти случайны. В этом сообщении блога мы объясняем эту новую методологию, называемую ACE (искусственная контрфактическая оценка), которая использует машинное обучение (ML) и причинно-следственный вывод для искусственного воспроизведения «контрфактического» сценария, созданного путем случайного назначения. Мы объясним, как это работает на практике, почему это лучше, чем другие методы, такие как сопоставление и синтетический контроль, и как мы преодолели трудности, связанные с этим методом.

Проблема неслучайных операций

В основе рандомизированных контролируемых экспериментов (часто называемых A/B-тестами) лежат два ключевых предположения:

  1. Лечебная и контрольная группы аналогичны. Когда у вас есть похожие группы, результаты не зависят от атрибутов группы, таких как возраст, пол и местоположение, а это означает, что любое различие между группами может быть связано с лечением, которое было получено одной группой, а не другой. С точки зрения статистики мы предполагаем, что контролировали все искажающие факторы, тем самым уменьшая погрешность наших оценок.
  2. Размеры выборки достаточно велики. Большие размеры выборки служат для уменьшения величины случайных различий между двумя рандомизированными группами, что дает нам уверенность в том, что лечение имеет истинное причинно-следственное воздействие. Говоря техническим языком, мы предполагаем, что уменьшили дисперсию наших оценок настолько, чтобы получить соответствующую статистическую мощность.

Учитывая потребность в подобных группах и больших размерах выборки при проведении A/B-тестирования, любая организация с операционными командами сталкивается с проблемами. Для начала, есть общие опасения по поводу несправедливости и разрушительного опыта при проведении рандомизированных экспериментов на операционных агентах. Во-вторых, операционные площадки расположены в разных странах с разным количеством сотрудников, уровнем квалификации и т. д., поэтому мы не можем просто назначить определенные регионы для обработки, а некоторые для контроля, не вводя сравнения яблок с апельсинами, что приведет к систематической ошибке в оценке. измерение. Наконец, у нас есть миллионы клиентов, но не миллионы операционных агентов, поэтому размер выборки для этого теста всегда будет намного меньше, чем для других экспериментов.

ACE спешит на помощь

С ACE (Искусственная контрфактическая оценка) у нас есть лучшая вещь после рандомизированного эксперимента. Хитрость заключается в одновременном достижении уменьшения смещения и уменьшения дисперсии с помощью метода оценки причинно-следственных связей на основе машинного обучения.

Причинный вывод - это процесс оценки контрфактического результата, который произошел бы, если бы обработанные единицы не подвергались лечению. В нашем случае мы хотим знать, насколько продуктивными были бы наши операторы, если бы они не использовали новый инструмент автоматизации рабочего процесса. Есть много способов построить такой контрфактический результат, но наиболее распространенными являются следующие:

Мы можем построить контрфактический результат с помощью прогноза ML, используя как смешанные, так и не смешанные факторы в качестве признаков. В двух словах, мы используем группу удержания (т. Е. Нелеченную группу)) для обучения модели ML, которая предсказывает контрфактический результат, который не лечится в период после лечения. Затем мы применяем обученную модель к обработанной группе в течение того же периода. Прогнозируемый результатслужит контрфактически (новый контроль), представляющий воображаемый сценарий, в котором группа лечения не лечилась в период после лечения(Y''в приведенном ниже уравнении).

В приведенном выше уравненииt – это разница между наблюдаемым результатом группы лечения(Y)и прогнозируемым результатом(Y'' ). Он представляет собой наивную оценку воздействия,поскольку она предвзята. На следующем графике показан высокий уровень ACE. Он состоит из следующих шагов, как показано на рисунке 1:

  1. Мы обучаем модель машинного обучения, используя данные из группы ожидания, то есть группы без лечения.
  2. Мы применяем обученную модель к группе лечения, чтобы получить прогнозируемый результат, если бы мы не применяли лечение к этой группе.
  3. Разница между фактическим и прогнозируемым результатом для лечебной группы является предполагаемым воздействием.

Мы конкретизируем подробные проблемы в более позднем разделе перед его применением.

Проблемы ACE и решения

При разработке ACE возникают две основные проблемы: оценка смещения и построение доверительных интервалов.

Задача 1: оценка погрешности

Прогнозируемый результат Y''от моделей машинного обучения часто оказывается необъективным по двум причинам, в результате чего оценка причинно-следственного воздействия t также оказывается необъективной ( см. Черножуков и др. (2018)). Две причины смещения: 1) регуляризация и 2) переобучение.

На рисунке ниже показана ошибка предсказания модели ML для 100 синтетических A/A-тестов, для которых предполагаемое влияние всегда должно быть равно нулю. Однако ясно, что распределение оценок не сосредоточено вокруг нуля. Средняя ошибка прогноза на самом деле составляет 2 %, а это означает, что прогноз ML Y’’ в среднем завышен на 2 %.

Задача 2: построение доверительных интервалов

В отличие от традиционного t-теста для A/B-тестирования, при выполнении ACE не существует аналитического решения для доверительных интервалов. В результате мы должны построить эмпирические доверительные интервалы для оценок. Чтобы решить эти две проблемы, мы использовали эмпирический подход к устранению смещения из прогноза, а затем построили наши доверительные интервалы на основе того же эмпирического подхода.

В ACE мы используем A/A-тесты как для устранения предвзятости, так и для построения доверительных интервалов.

Решение задачи 1: Debias

Одна из естественных идей состоит в том, что если мы можем уверенно оценить величину смещения, мы можем просто скорректировать прогноз на основе предполагаемого смещения. Тогда оценка становится:

Специалисты-практики могут свободно выбирать любые модели машинного обучения — f(X) — для прогнозирования Y''. На рис. 2 показано смещение 2 % для 100 A/A. образцы. Вопрос в том, можем ли мы сказать, что истинное смещение составляет 2%? Если мы можем проверить, что систематическая погрешность составляет 2% (т. е. постоянна для разных выборок A/A в течение одних и тех же периодов и повторяема в разные периоды времени), мы можем сказать, что погрешность = 2%. На рис. 3 показана повторяемость оценки смещения во времени. Оценки всегда смещены вверх, а средние оценки смещения составляют около 2%. На рис. 4 показана средняя ошибка предсказания после устранения смещения (2%). При коррекции смещения распределение предполагаемого воздействия сосредоточено вокруг нуля.

Решение задачи 2: построить эмпирические доверительные интервалы

Мы можем использовать данные тестов A/A для построения эмпирических доверительных интервалов и p-значений.

  • Эмпирический доверительный интервал: чтобы быть более точным, 95% доверительный интервал строится на основе распределения 100 бутстрепных выборок A/A. Учитывая, что мы знаем, что истинные различия тестов А/А равны 0, и если 5% оценочных воздействий от 100 тестов А/А находятся за пределами диапазона [-0,2, 0,2], то мы знаем, что 95% доверительный интервал составляет [-0,2]. , 0,2].
  • Эмпирическое p-значение: мы можем оценить ошибку типа I с помощью тестов A/A, рассчитанных на основе моделей ML, следующим образом. Предположим, мы оценили 3% воздействия на лечение. P-значение предназначено для оценки вероятности получения оценки за пределами [-3%, 3%], когда нулевая гипотеза верна — влияния нет. Это, вероятно, оценивается с помощью эмпирического распределения итерационных тестов A/A. Если вероятность равна 1%, мы придем к выводу, что у нас есть не менее 98% (т.е. 100% — (1%*2)) уверенности в том, что альтернативная гипотеза — влияние не равно нулю — верна.

Проверка

Чтобы проверить, может ли ACE точно измерить влияние, мы добавили ACE к данным из крупномасштабных рандомизированных данных A/B и сравнили результаты ACE с результатами тестов A/B. Результат A/B-тестирования считается достоверным для проверки, поскольку A/B-тестирование является золотым стандартом измерения. Результаты почти идентичны.

Преимущества АСЕ

Есть несколько преимуществ ACE по сравнению с другими методами оценки:

  • Он гибок в выборе модели оценивания. Мы можем свободно выбирать любые передовые модели машинного обучения для достижения желаемого уровня точности, исходя из различных вариантов использования и свойств данных.
  • Его достоверность и точность можно легко оценить на этапе разработки плана измерений путем проведения тестов A/A.
  • Его можно применять как к экспериментальным данным для уменьшения дисперсии, так и к неэкспериментальным данным для коррекции смещения, а также для уменьшения дисперсии.
  • Для экспериментальных данных:
    – он менее подвержен систематическим ошибкам по сравнению с регрессионными корректировками.
    - Он имеет большую мощность по сравнению со стратификацией, когда модель машинного обучения имеет хорошую производительность.
    - Он оценивает величину воздействия, а не только наличие воздействия по сравнению с ранговыми тестами.

Вы помните, что мы применили ACE для оценки дополнительной выгоды от инструмента, который помогает операционным агентам автоматизировать часть своего рабочего процесса. Мы сгенерировали p-значения для трех различных методологий измерения: (1) классический t-критерий; (2) непараметрический ранговый тест и (3) непараметрический тест ACE, основанный на эмпирическом доверительном интервале, который мы описали в предыдущем разделе. Ниже приводится сравнение производительности для t-критерия, рангового критерия и методов на основе ML для одного и того же размера выборки, в частности, когда размер выборки мал, когда мы пытаемся сделать вывод с помощью классического t-критерия, как мы делаем в A/ Б тестирование.

Резюме

В этом сообщении блога мы объяснили, как можно использовать ML для контрфактического предсказания, используя задачу оценки эффективности инструмента агента в качестве нашего мотивирующего примера.

Сочетание методов статистического вывода и машинного обучения — эффективный подход, когда невозможно провести A/B-тестирование. Однако, как мы видели, применение методологий машинного обучения может быть опасным, если не устранить внутреннее смещение модели. В этом посте описан практичный и надежный способ исправить это внутреннее смещение, минимизируя при этом ошибку типа I по сравнению с конкурирующими методами.

В настоящее время мы работаем над тем, чтобы превратить наш шаблон кода в простой в использовании пакет Python, который будет доступен всем специалистам по данным в компании.

Если этот вид работы вас интересует, ознакомьтесь с некоторыми из наших вакансий!

Старший специалист по данным — Платежи

Благодарности

Спасибо Alex Deng и Lo-hua Yuan за отзыв о разработке ACE и потраченное время на проверку работы. Мы также хотели бы поблагодарить членов Комитета по проверке экспериментов Airbnb за отзывы и комментарии. И последнее, но не менее важное: мы очень благодарны Джой Чжан и Натану Триплетту за их руководство, а также отзывы и поддержку от Тины Су, Раджа Раджагопала и Энди Ясутаке.

Рекомендации

Дополнительная литература по похожей теме

****************

Все названия продуктов, логотипы и торговые марки являются собственностью соответствующих владельцев. Все названия компаний, продуктов и услуг, используемые на этом веб-сайте, предназначены только для целей идентификации. Использование этих названий, логотипов и торговых марок не означает одобрения.