Выберите правильный тип эксперимента

Отрывок из книги «Практическое A/B-тестирование: создание продуктов, основанных на экспериментах» Лимей Нассери

Задание аналитика: написать гипотезу для A/B-теста на эквивалентность

Прежде чем читать следующий отрывок, сформулируйте гипотезу для этого A/B-теста эквивалентности. Учитывая, что вы работаете над платформой и настраиваете тест для команды разработки продукта, вполне нормально иметь заполнители для неизвестных деталей.

Когда вы пишете формулировку гипотезы, помните, что цель A/B-теста на эквивалентность — продемонстрировать, что изменение не лучше и не хуже, а равноценно реализации контроля.

Вот пример утверждения гипотезы для оценки изменений, сделанных при миграции:

We believe that VERSION A of a feature will have no meaningful difference 
when compared to VERSION B, the control, because they're nearly similar 
in implementation and therefore should have no effect on 
KEY USER SUCCESS METRIC.

Как это соотносится с выдвинутой вами гипотезой? Включили ли вы детали, относящиеся к миграции конвейера данных, в формулировку гипотезы? Миграция данных должна быть прозрачной для вышестоящих команд, использующих наборы данных. Предположим, вы оптимизируете наличие четкой и краткой гипотезы, которая фокусируется на результате, а не на закулисных деталях, невидимых в пользовательском опыте. В этом случае исключение деталей, относящихся к миграции, является правильным подходом.

Все хорошо, что хорошо кончается. Предположим, что A/B-тест вашей партнерской команды прошел успешно. По результатам испытаний был сделан вывод, что ВЕРСИЯ А признака и ВЕРСИЯ Б, контрольная, были эквивалентны. Команда может спать спокойно, зная, что эта миграция была должным образом проверена с помощью A/B-тестирования, что сводит к минимуму все опасения по поводу внесения изменений, которые могут негативно повлиять на взаимодействие с пользователем.

Оценка архитектурных изменений главной страницы For You

Вернемся к A/B-тестированию видеопродукта CableMax. Прошло время с момента запуска первой домашней страницы For You. У команды есть новая версия для оценки. Ну, это не новая версия с точки зрения пользователя. Изменение должно быть прозрачным для пользователя, поскольку это изменение архитектуры. Смотрите это изображение:

Цель новой архитектуры — отделить хранение истории просмотров пользователя от истории покупок пользователя. Данные хранились в том же кеше истории просмотра в исходной архитектуре. С точки зрения продукта ничего не изменилось. Однако эта архитектура позволит использовать будущие функции продукта сейчас, когда стало проще интегрировать новые наборы данных. Давайте подумаем об этом подробнее на этой боковой панели:

Задача аналитика: какой тип A/B-тестирования будет оптимальным?

Какой тип A/B-тестирования продемонстрирует, что эта инженерная архитектура не ухудшает взаимодействие с пользователем? Подумайте об этом, прежде чем мы обсудим детали A/B-тестирования в следующем отрывке.

Давайте начнем с определения метрики для этого A/B-теста. Имеет смысл продолжать использовать ту же метрику, воспроизведение видео, из исходного A/B-теста For You. Вы уже установили базовое значение для этой метрики, поэтому прервать результаты теста должно быть довольно легко. Теперь, когда метрика определена, можно сформулировать утверждение гипотезы. Рассмотрим следующее:

We want to learn if the new engineering architecture, which decouples 
the purchase data from the watch data when accessed on the user 
request path, did not worsen video plays more than the predefined level 
of 0.1 percent.

Зная метрику и гипотезу, считаете ли вы, что это изменение архитектуры следует оценивать с помощью теста не меньшей эффективности, превосходства или эквивалентности? Вы можете сразу исключить превосходство, поскольку ожидается, что это изменение не окажет положительного влияния на показатель воспроизведения видео. Если вы выбрали не неполноценность, то вы попали в точку! С помощью этого A/B-теста вы хотите сделать вывод, что новая архитектура не снижает наиболее важную метрику, воспроизведение видео, более чем на 0,1 процента по сравнению с контролем. Если тест обнаружит негативное влияние, изменение архитектуры не будет продолжено без выявления и устранения основной причины.

Применение тестирования не меньшей эффективности и эквивалентности в медицинской отрасли

Если вам интересно, как тесты не меньшей эффективности и эквивалентности применяются в других отраслях, помимо программного обеспечения, прочитайте статью, написанную Лаурой Флайт и Стивеном. А. Джулиус под названием «Практическое руководство по расчету размера выборки: испытания не меньшей эффективности и эквивалентности».

В статье исследуются примеры того, как тесты не меньшей эффективности и тесты эквивалентности применяются в медицинской отрасли, в частности, в клинических испытаниях, как показано в следующем отрывке:

…после того, как существующая терапия была установлена, проведение плацебо-контролируемых испытаний может оказаться неэтичным. Вместо этого могут быть проведены испытания с активным контролем, в которых новое лечение сравнивается с установленным лечением с целью демонстрации того, что новое лечение не хуже. Таким образом, для некоторых испытаний цель состоит не в том, чтобы продемонстрировать, что новое лечение превосходит плацебо или эквивалентно известному лечению, а скорее в том, чтобы продемонстрировать, что данное лечение клинически не хуже или не хуже другого.

До сих пор примеры были разработаны с учетом конкретных решений по продукту или платформе и обычно создаются для оптимизации краткосрочных показателей продукта. Далее мы рассмотрим, как измерить долгосрочное влияние изменений, внесенных в продукт.

Подтверждение долгосрочного воздействия с помощью сдерживающих факторов

Обычно мы хотим сохранить результаты как можно быстрее. Однако иногда нам нужно больше времени, чтобы продемонстрировать долгосрочное влияние изменений на показатели бизнеса и продукта. Или, может быть, мы хотим количественно оценить коллективное влияние всех изменений продукта, внесенных в течение квартала. Есть также сценарии, в которых мы хотим убедиться, что первоначальные результаты продолжают развиваться в том же направлении в течение более длительного периода. Для идей, которые могут не дать результатов так быстро, здесь вступают в игру долгосрочные эксперименты.

Выбирая сдерживающие факторы и долгосрочные эксперименты, вы можете добиться следующего:

Измеряйте влияние изменений на показатели, такие как отток или удержание, которые изменяются медленнее или требуют больше времени для наблюдения.
Изучите взаимосвязь между вашими краткосрочными показателями продукта и долгосрочными бизнес-показателями в непринужденной манере.
Понимайте влияние нескольких изменений в совокупности, учитывая, что группа сдерживания еще не подвергалась их воздействию.
Продолжайте наблюдать за тем, чтобы тенденция первоначального A/B-теста сохранялась, улучшалась или ухудшалась с учетом первоначальных результатов.

Давайте сначала лучше поймем, что влекут за собой эксперименты с сдерживанием.

Надеемся, вам понравился этот отрывок. Если вы хотите продолжить чтение книги A/B Testing автора Leemay Nassery, вы можете приобрести книгу непосредственно на The Pragmatic Bookshelf:

Практическое A/B-тестирование
Являетесь ли вы катализатором организационных изменений или получаете поддержку, необходимую для создания инженерной культуры, которая…pragprog.com

Выберите правильный тип эксперимента