Большая часть статистики связана со сравнением двух вещей и определением того, различаются ли они на самом деле, или же мы случайно наблюдали разницу в собранной нами выборке, но на самом деле разницы нет. Вот что делает статистику такой интересной. Например, действительно ли производительность iphone13 лучше, чем у iphone10? Или модель машинного обучения, которую я построил, действительно лучше существующей системы?

Для примера с iphone, как бы вы это сделали? Предположим, вы измеряете производительность на основе миллисекунд, необходимых для открытия приложения Uber. Таким образом, вы открываете приложение несколько раз и отмечаете время, затраченное каждый раз для обоих телефонов.

iphone13 = [120,100,110,90,115,123,114,103,111,107,103,118,113,112,121,110,117,115,119,108,124,111,112,113,113,11,112,110,109,109]

iphone10 = [123,119,115,112,100,121,125,122,125,123,128,122,119,118,112,130,122,128,112,118,112,126,122,123,127,122,123,119,129,122]

Предположим, это то, что вы наблюдали и теперь хотите узнать, есть ли реальная разница в производительности.

Наивный подход

Один наивный подход - просто воспользоваться средствами и сравнить

iphone13_mean = 108,43

iphone10_mean = 120.63

Теперь вы можете сделать вывод, что iphone13 работает лучше.

НО можете ли вы быть уверены, что эта разница будет снова наблюдаться, если вы проведете еще одну серию измерений? Можете ли вы спокойно пойти и сказать своему менеджеру, что да, есть разница в производительности? Что, если они проведут собственный эксперимент и обнаружат, что обе модели на самом деле очень похожи?

Как ты можешь быть уверен?

Традиционный подход

Второй подход - традиционный статистический тест.

При таком подходе вы

  1. Вычислить t-статистику
  2. Найдите теоретическое распределение в t-таблице.
  3. Если вы обнаружите, что вероятность наблюдаемого значения T находится в верхних 5% (довольно произвольный порог) теоретического распределения, то вы делаете вывод, что наблюдаемая разница не из-за случайной случайности.

Теперь для людей, которые только что познакомились со статистическими тестами, эти тесты кажутся произвольными, потому что они обычно действуют как черные ящики и используют плохо объясненные пороговые значения, такие как 5%.

Возникает вопрос: можем ли мы сделать лучше?

Начальная загрузка

Бутстрапирование было предложено Брэдли Эфроном (я полагаю, не связанным с Заком Эфроном) в 1979 году [EFRON_1979]. Он отметил, что традиционные подходы являются параметрическими и основываются на теории нормального распределения.

«Наиболее очевидным недостатком этой [традиционной] процедуры является использование теории нормального распределения для определения критического значения, при котором наблюдаемое становится« значимым ». Непараметрическая статистика, в основном развивающаяся с 1950 года, дает ответ, не зависящий от нормальной теории: »[EFRON_1979]

Что он предложил взамен?

Что ж, он сказал, действительно ли мы хотим быть уверены, что iphone13 лучше, чем iphone10. Тогда давайте сначала представим, что это не так, и все измерения, которые мы провели, относятся, скажем, к базовой модели iphone под названием iphone_base, которую Apple хитроумно переименовывает и продает как iphone10 и iphone13.

так что теперь у нас есть

iphone_base = [120, 100, 110, 90, 115, 123, 114, 103, 111, 107, 103, 118, 113, 112, 121, 110, 117, 115, 119, 108, 124, 111, 112, 113 , 113, 11, 112, 110, 109, 109, 123, 119, 115, 112, 100, 121, 125, 122, 125, 123, 128, 122, 119, 118, 112, 130, 122, 128, 112 , 118, 112, 126, 122, 123, 127, 122, 123, 119, 129, 122]

Теперь, если мы рассмотрим все возможные равные разбиения (потому что у нас было одинаковое количество измерений для каждого телефона) этого iphone_base, то только один из

N = 60! / (30! 30!) Будет соответствовать тому, что мы наблюдали. Остальные все комбинации будут иметь сочетание измерений как iphone13, так и iphone10.

В каждой из этих N комбинаций мы вычисляем разницу между (средним для разделения A) и (средним для разделения B). Поскольку мы смешали измерения, следует ожидать, что различия будут близки к нулю, за исключением случая, который мы действительно наблюдали. Если наблюдаемая разница составляет 5% от всех вычисленных различий N, то мы можем сказать, что наблюдаемая разница статистически значима.

Теперь проблема 60! / (30! 30!) - это более триллиона комбинаций, и это тоже всего для 60 значений!

Как выразился Эффрон, «непараметрический метод платит высокую вычислительную цену за свою свободу от теории нормального распределения. «ДА, давай назовем это жестким.

НО он убедил нас в том, что, если мы пытаемся быть уверенными в наших выводах, мы можем просто использовать вычисления вместо того, чтобы делать параметрические предположения об этом.

Хорошо, мы поняли, вот классный метод, который на самом деле непрактичный, так что в основном бесполезный, и мы должны вернуться к этим t-тестам черного ящика, верно?

НЕТ. Здесь все становится интереснее, и на помощь приходит стохастичность.

Идея состоит в том, что, если мы оценим не все возможные комбинации, а выбранное количество (n) случайно выбранных комбинаций, где нет Это сработает?

АД ДА!

Ключевым моментом здесь является случайный выбор с заменой.

Для данных, которые мы предположили, мы решили, что n = 10 000.

Затем мы делаем выборку из наших наблюдений с заменой. Разделите его на 2 равные части и вычислите и запишите разницу между средними значениями двух выборок.

Как выглядит эта разница в загрузке?

Это то, что мы ожидали, правда? Поскольку мы объединили измерения с двух iPhone, мы ожидаем, что в среднем случайная выборка будет включать измерения с обоих телефонов, а разница в средних должна быть близка к нулю.

То, что мы наблюдали ранее, было

iphone13_mean = 108,43

iphone10_mean = 120.63

Теперь разница составляет ~ 12 миллисекунд. Насколько вероятно, что мы увидим эту разницу на графике выше? Вряд ли, подразумевая, что спектакли действительно разные. Также следует отметить, что если бы наблюдаемая разница составляла ~ 2 миллисекунды, то, глядя на приведенный выше график, мы не смогли бы сделать вывод, что они действительно были разными, потому что наблюдение разницы в 2 миллисекунды весьма вероятно в соответствии с приведенным выше графиком / распределением.

Вместо того, чтобы смотреть на график, мы можем сделать предположение, что данные обычно распределяются со средним значением 0 и стандартным значением 4,04 (рассчитанным на основе данных о различиях с начальной загрузкой). Теперь, используя кумулятивную функцию распределения нормального распределения, мы можем найти точную вероятность получения + - 12 миллисекунд.

Теперь это значение составляет около 0,0025, так что есть только 0,25% шанс увидеть эту разницу в 12 миллисекунд, если бы эти наблюдения действительно были для реальной модели iphone_base.

Почему работает начальная загрузка?

О, мальчик, тебе действительно любопытно, не так ли?

Позвольте мне попробовать и потерпеть неудачу.

Представьте, что у вас есть доступ ко всем когда-либо произведенным iphone13 и iphone10, и вы провели эти измерения для каждого из этих телефонов сразу после того, как они были изготовлены и готовы к отправке. Таким образом, у вас есть доступ ко всем возможным измерениям производительности.

Теперь, когда у вас есть все возможные измерения, подойдет даже наивный подход, описанный выше. Просто возьмите все возможные различия (если вы можете собрать все айфоны, держу пари, вы тоже сможете это сделать. Подыгрывайте), возьмите их на себя и покончите с этим.

Теперь предположим, что вы извлекаете случайные выборки из всех возможных вычислений разницы. Тогда для каждой случайной выборки вы получите немного другую оценку (среднее значение) разницы по сравнению с наивным подходом. Эта разница называется ошибкой выборки, а это распределение оценки называется выборочным распределением оценки (см. Левую часть диаграммы ниже. Где theta - это разница в производительности iphone13 и iphone10. Theta¹, theta²… и т. Д. - это разница в производительности iphone13 и iphone10, поскольку наблюдается в каждой случайной выборке из совокупности)

Таким образом, чтобы быть действительно уверенным, что есть разница в производительности iphone13 и iphone10, мы можем посмотреть на распределение выборки и вычислить, насколько вероятно обнаружение разницы, которую мы наблюдали в этом распределении выборки.

НО проблема в том, что НЕТ, мы не можем собрать все возможные iphone13s и iphone10s, и НЕТ, мы не можем вычислить все возможные различия, и НЕТ, мы не можем продолжать брать образцы из истинной популяции.

В ЭТОМ месте вступает в действие самозагрузка.

Усиление помогает нам оценить стандартную ошибку путем рисования случайных выборок с заменой ОДНОЙ и ЕДИНСТВЕННОЙ выборки, которую мы обычно имеем в реальной жизни (см. Правую часть диаграммы ниже).

Теоретическое доказательство этого не поддается объяснению, поскольку оно слишком быстро становится математическим, но его можно найти здесь для восхитительного чтения;) [SWANEPOEL]

Есть еще вопросы? Не стесняйтесь обращаться ко мне в LinkedIn

ИСТОЧНИКИ

[EFRON_1979] (https://sci-hub.se/https://doi.org/10.1137/1021092)

[SWANEPOEL] (https://sci-hub.se/https://doi.org/10.1080/03610928608829303)