Отказ от ответственности.Этот блог предназначен для всех, кто хочет немного разобраться в проверке гипотез в машинном обучении. Эксперт или новичок, это для тех, кому интересно знать.

Я хочу поделиться с вами кое-чем о машинном обучении (ML). Я изучаю ML уже довольно давно. При обучении машины возникает масса сложностей. Алгоритмы машинного обучения разработаны таким образом, чтобы они могли учиться на данных в строго структурированной и контролируемой среде. В отличие от обучения ребенка, которое более органично и непредсказуемо, обучение машины — это совсем другой пример. Хотя когда сложность увеличивается, даже некоторые части алгоритмов машинного обучения становятся для нас черным ящиком. Довольно интересно, как мы неосознанно так интуитивно используем математику для решения задач.

Как сделать так, чтобы монеты, отчеканенные для короля, содержали соответствующее количество золота или серебра?

Теперь, чтобы не отклоняться от темы, которую я хотел затронуть, часть ML зависит от статистики. И об этом мы и поговорим в этом блоге. Это называется проверка гипотез. Как следует из названия, мы создаем собственную гипотезу на основе любого случайного набора данных, который мы получаем, и пытаемся доказать ее с помощью математики. Это так просто! Или я так думал!

Есть много примеров, помогающих понять это, но я постараюсь выбрать самый простой. Все мы знаем, что кока-кола и пепси — соперники. Допустим, я хочу раз и навсегда покончить с этим соревнованием и выяснить, какой напиток больше всего любим. Обратите внимание, что это гипотетическая ситуация.

Теперь «гипотетически» есть человек по имени Notarealperson. Он заходит в бар и говорит, что пепси вкуснее кока-колы. У него даже есть доказательства, подтверждающие это.

Проверка гипотезы говорит, что статически мы не поверим Нереальному человеку (что Pepsi = Love vs Coke = SecondLove). Мы считаем, что Pepsi = Coke = Love.

Теперь с данными, которые есть у Notarealperson, нам нужно увидеть вероятность этой истины.

Допустим, мы на 100 % уверены в нашей «нулевой гипотезе», что пепси = кока-кола = любовь.

Если данные Notarealperson могут дать вероятностную оценку того, что существует 5% или более шансов, что PepsiLove › CokeLove, тогда мы «отвергнем нулевую гипотезу» и примем теорию Notarealperson.

В этом суть. Звучит просто. И это так — если вы понимаете проблему, которую хотите решить.

Есть много тестов, которые вы можете провести, если у вас есть гипотеза, определенная для определенного набора данных.

Помните, что ваша гипотеза возможна только тогда, когда вы отвергаете «нулевую гипотезу», то есть у вас есть вес, чтобы отвергнуть существующие убеждения, доказав свою теорию с небольшим процентом (по умолчанию 5%).

Позвольте мне перечислить некоторые статистические инструменты, которые можно использовать:

  1. Т-тест
  2. Хи-квадрат Тест
  3. Анова Тест
  4. H-тест Крускала-Уоллиса

Я не буду вдаваться в подробности, но приведу примеры для нескольких из них.

Тест хи-квадрат: если вы хотите найти связь между несколькими точками в ваших данных.

Допустим, у нас есть данные об упражнениях и потере веса для группы людей. Мы хотим доказать, что физические упражнения оказывают значительное влияние на потерю веса. Нулевая гипотеза говорит об отсутствии связи между физическими упражнениями и потерей веса, а альтернативная гипотеза говорит о наличии связи. Тест Хи-квадрат предоставит вероятность. Это укажет, значительно ли наблюдаемые частоты отличаются от ожидаемых частот.

Тест ANNOVA: Если вы хотите сравнить 3 или более групп.

Предположим, исследователь хочет сравнить средний рейтинг Coca-Cola и Pepsi среди трех возрастных групп участников: группы A, группы B и группы C. Исследователь может попросить каждого участника попробовать и оценить как Coca-Cola, так и Pepsi по шкале от 1 до 10, где 1 — самый низкий рейтинг, а 10 — самый высокий. Затем исследователь может записывать оценки для каждого участника в каждой группе.

Исследователь может использовать тест ANOVA, чтобы определить, есть ли существенные различия в средних оценках Coca-Cola и Pepsi среди трех групп участников. Нулевая гипотеза будет заключаться в том, что нет существенной разницы в средних оценках Coca-Cola и Pepsi среди трех групп, а альтернативная гипотеза будет состоять в том, что существует значительная разница.

Вот и все, ребята, — проверка гипотез! Это все равно, что пытаться понять, нравишься ли ты тому, кто тебе нравится, или нет. Вы выдвигаете гипотезу, что да, но затем вам нужно собрать доказательства, чтобы доказать это. Может быть, вы спросите своих друзей, заметили ли они что-нибудь, или вы попытаетесь поймать взгляд на вас. И точно так же, как и при проверке гипотез, вам нужно убедиться, что ваши доказательства достаточно убедительны, чтобы подтвердить вашу гипотезу. Но эй, даже если это не сработает, по крайней мере, ты пытался, верно? И кто знает, может быть, вы найдете кого-то еще лучше — как холодную банку колы или пепси в жаркий день!

Дайте мне знать, если это помогло. Я хотел бы услышать от вас всех.

Если у вас есть какие-либо вопросы, дайте мне знать. Мы все учимся понемногу.

Ссылки:

Историческая проверка гипотез