A / B-тестирование: подход Python (часть 2)

Мы уже выполнили EDA для нашего набора данных, взятого из задачи Kaggle. Набор данных основан на игре под названием cookie cats. Чтобы разобраться в выбранных показателях, формулировке гипотез, размере выборки и коэффициенте удержания, пожалуйста, прочтите мою другую статью.

T-тест

Чтобы сравнить разницу между средними значениями двух разных групп, взятых из одной и той же совокупности, мы используем статистический инструмент, известный как t-критерий независимых выборок. Тем не менее, существуют различные другие статистические инструменты, которые можно использовать для проверки гипотез. Но этот статистический инструмент - то, что нам сейчас нужно для нашего анализа.

Перед выполнением t-теста необходимо выполнить два условия:

Отбираемые образцы должны быть случайными.
Данные должны иметь нормальное распределение.

Чтобы выполнить t-тест:

Мы должны знать среднее значение для каждой группы, то есть контрольной и экспериментальной. Что касается нашей проблемы, он говорит нам: «В какой группе уровень удержания выше». При его расчете ожидается вариативность среди пользователей и для всей группы.

Чтобы учесть эту изменчивость, мы вычисляем предельную погрешность разницы между средними. Предел погрешности рассчитывается с использованием объединенного стандартного отклонения параметра и умноженного на него Z-показателя.

Доверительный интервал

Средняя разница между двумя группами помогает нам найти доверительный интервал. Это дает нам диапазон всех правдоподобных значений, которые может иметь наш результат в этой совокупности или, простыми словами, если мы возьмем неограниченное количество выборок, 95% этих выборок будут иметь среднюю разницу в диапазоне доверительного интервала.

Важное примечание: диапазон возможной средней разницы не должен равняться нулю, потому что если это так, то не будет никакой средней разницы в генеральной совокупности.

Используя эти шаги, можно было выяснить, какая группа дает статистически значимые результаты. Согласно этому эксперименту контрольная группа лучше, чем экспериментальная группа. Точно так же его можно рассчитать для 7-го дня. Чтобы проверить полный код, загляните в мой github.

Оценка размера эффекта

Чем больше размер выборки, тем выше шансы отвергнуть любую нулевую гипотезу, даже если есть небольшая взаимосвязь в генеральной совокупности. Следовательно, мы должны рассчитать размер эффекта, который говорит нам о влиянии изменения.

Величину эффекта можно рассчитать с помощью d Коэна в независимой выборке (обозначено d).

Если значение размера эффекта находится в диапазоне от 0,20 до 0,50, воздействие слабое.
Если значение размера эффекта находится в диапазоне от 0,51 до 0,80, влияние умеренное.
Если значение размера эффекта больше 0,80, воздействие будет сильным.

Размер эффекта также дополняет статистическую значимость. Мы делаем выводы для генеральной совокупности на основе выборки, проверяя, является ли результат статистически значимым. Но с помощью размера эффекта мы проверяем, насколько мощный эффект.

Эксперимент показывает негативное влияние запуска экспериментальной группы или введения ворот на уровне 40. Следовательно, нам не следует запускать новую версию.

Следующая статья будет продолжением этой статьи. Мы рассмотрим тестирование начальной загрузки с использованием Python более подробно.

Вывод:

Логическая статистика дает нам представление о том, почему необходимо принять решение в отношении бизнеса. Сделано предположение о дисперсии для t-критерия.

Хотя доступны различные библиотеки, я пробовал использовать простую математику. Также посмотрите библиотеку Scipy для статистики.

A / B-тестирование: подход Python (часть 2)

T-тест

Доверительный интервал

Оценка размера эффекта

Далее:

Вывод:

Вопросы по теме