Быть спортивным болельщиком может быть волнением, радостью, беспокойством, болью, а иногда и всеми этими эмоциями одновременно. Это может создать дружеские отношения, связать вас с сообществом и повысить частоту сердечных сокращений настолько, чтобы считать это формой кардио. Когда вы достаточно внимательно следите, вы получаете понимание самого вида спорта. Это понимание спорта может привести к интуитивному пониманию того, кто победит, и даже того, как это может произойти, например, сколько очков будет набрано в баскетбольном матче. Ваша интуиция становится лучше, чем больше времени вы тратите на просмотр, поскольку вы узнаете больше нюансов. Удивительная вещь в спорте, которая заставляет людей смотреть, заключается в том, что независимо от того, что думает человек с наибольшей интуицией и знанием игры, результат не гарантирован. В мире спорта нет лучшего примера, чем баскетбольный турнир колледжей NCAA. Его пародия и дикие результаты принесли ему титул Мартовского безумия.

Проблема

Если вы заполните скобку в марте, вы знаете, как сложно выбрать идеальную скобку. У нас все еще нет подтвержденной идеальной сетки в истории турнира, что на самом деле неудивительно, учитывая, что шансы составляют 1 из 9 223 372 036 854 775 808. Никто не виноват, учитывая такие исключительные результаты, как команда Джима Вальвано из штата Северная Каролина, выигравшая национальный чемпионат в 1983 году, UMBC с 16 посевами опрокинула первое место в общем зачете и каждый зуммер, который, кажется, останавливает время, пока он находится в воздухе. . Давайте рассмотрим, как вы можете решить эту непреодолимую проблему выбора кронштейна. Попутно я хочу показать вам, что вы можете знать о машинном обучении больше, чем думаете.

Наш подход: выживать и развиваться

Когда мы впервые взглянем на сетку после ее выпуска, у нас будет 63 игры (исключая игры для игры). Поэтому вместо того, чтобы думать о сетке в целом, давайте разберем ее на меньшую задачу: выберите победителя в одной игре. Если мы сможем придумать последовательное правило для выбора победителя игры, то нам просто нужно использовать это правило 63 раза! Итак, давайте подумаем о некоторых основных правилах и о том, насколько хорошо они будут работать. Для этих правил допустим, что каждая игра проводится между Командой А и Командой Б.

Идея правила № 1: подбросьте монетку

Это самое простое правило в книге, которое мы можем использовать! Справедливый. Беспристрастный. Итак, как мы его используем? Давайте продолжим и определим правило как:

  • Если монета падает орлом, выигрывает команда А
  • В противном случае, когда монета падает решкой, выигрывает команда Б

При чем тут машинное обучение?

Цель правила №1 – решить, кто победит: «Команда А» или «Команда Б». Это два возможных исхода игры. Другое слово, которое мы можем использовать вместо результатов, — это классы. Когда мы подбрасываем монету, мы помещаем игру в один из двух классов: «Победа команды А» или «Победа команды Б». В машинном обучении это называется классификацией. Так что в нашем случае монета — это наш «классификатор машинного обучения». Это «предсказание», в каком «классе» победит: «Команда А» или «Команда Б».

(Примечание: здесь мы не делаем прогнозов, это просто функция)

Применение правила №1

У нас есть 50% шанс предсказать правильного победителя. Здесь особо не на что смотреть.

Правило Идея № 2: Победителем становится та команда, у которой лучший посев

Это довольно простая идея, которая исторически хорошо себя зарекомендовала! Это правило крайне необъективно, что и является целью его использования. Предвзятость, которую мы используем, исходит от комитета, посеявшего команды. Комитет состоит из экспертов, которым нужно время, чтобы изучить и оценить каждую команду в отдельности, и посевной материал, который они назначают команде, отражает то, насколько хороша, по их мнению, команда. Если мы хотим доверять этим экспертам, мы могли бы использовать простое правило:

  • Если команда А имеет более низкий посев, чем команда Б, то команда А побеждает.
  • Если команда B имеет более низкий посев, чем команда A, то команда B побеждает.

Это правило чрезвычайно просто использовать, но мы сталкиваемся с проблемой, что делать, когда сталкиваемся с игрой между двумя командами с одним и тем же посевом.

  • Если у Команды A и Команды B одинаковое семя, выберите талисман команды, который будет первым в алфавитном порядке.

При чем тут машинное обучение?

Правило № 2 требует, чтобы мы думали о командах, которые мы сравниваем. Нам нужны две части информации о каждой команде: их семя и их талисман. Каждая часть информации называется функцией в машинном обучении. Раньше в правиле №1 нашему «классификатору» не требовалась никакая информация, чтобы «предсказать», к какому «классу» попала игра. Теперь мы собираемся использовать две функции для каждой команды, чтобы «предсказать», какой класс станет победителем: «Команда А» или «Команда Б».

(Примечание: то, как мы описываем этот «классификатор», по-прежнему является просто функцией, в которую мы можем записать результат)

Применение правила № 2

Поскольку у нас есть функция, результат которой нам известен, мы можем взглянуть на прошлогодний турнир, чтобы увидеть, насколько хорошо он прошел бы в 2021 году. Давайте начнем с просмотра результатов из Восточного региона.

Глядя на верхнюю половину региона, я очень хорошо отношусь к этому правилу, а потом… что случилось? Что ж, между командой UCLA Bruin из 11 сеяных, совершившей невероятный прорыв в «Финал четырех», и стрелком со штрафными 59%, выполняющим два штрафных броска за 1,2 секунды до победы над Техасом, мы получили Мартовское безумие.

Однако, глядя на турнир в целом, мы получили 66,7% игр, правильно классифицированных по нашему правилу! Это оглядываясь назад на каждую игру в отдельности. Если бы мы выбирали из пустой сетки, как мы будем делать в этом году, мы бы правильно выбрали только 50,8% игр. Так что нам нужно быть умнее, если мы собираемся победить наших друзей в этом году.

Идея правила № 3: Статистика команды

Введение информации (также известной как функции) дало нам лучший ориентир, которому мы могли следовать в Правиле № 2. Прямо сейчас мы используем небольшой объем информации, что позволяет нам использовать более простое правило для определения победителя. Что, если использование дополнительной информации, требующей более сложного правила, даст нам лучшие результаты? К счастью, что касается студенческого баскетбола, существует, казалось бы, бесконечное количество данных о командах: сила расписания, очки за игру, допустимые очки за игру, процент штрафных бросков, процент трехочковых бросков и т. д. Это можно рассматривать как полезную информацию. . Давайте просто попробуем использовать наши предыдущие две функции с парой этих новых. Как выглядит наш новый «классификатор»?

Что ж, у нас есть свои входные данные, но подумайте, сколько способов мы можем написать правило, чтобы определить победителя. Давайте вспомним, как мы подошли к этому в правиле № 2, мы начали с верхней части нашего набора информации и двигались вниз:

  1. Сравните семена команд
  2. Если ничья, то сравните алфавитный порядок талисманов команд.

Если мы подумаем о том, что мы делаем в уме здесь, на шаге 1, мы думаем о команде как о функции. Мы сравниваем ценность двух команд. Вместо «Сравнить семена команды» давайте подумаем об этом как «Сравните ценности команды». Просто так получилось, что мы говорим ценность команды — это ее семя. Если бы мы могли достать учебники по математике для 8-го класса и написать функцию, говорящую это, это было бы:

Значение(команда) =исходное число

Я знаю, что это может показаться противоположным тому, что я говорю, поскольку меньшее количество семян означает более сильную команду, но сейчас думайте о начальных числах как о 17 — семенах (например, 1 семя будет иметь значение 16, а 16 семя будет иметь значение 1).

Таким образом, чтобы использовать эту новую информацию, мы могли бы получить что-то вроде:

Значение(команда) = посев + (Сила расписания) + (Очки/игра) - (Разрешенные очки/игра) + (Процент штрафных бросков)

Большой! Используя больше информации, мы должны работать лучше… верно? Чтобы выяснить это, мы вернемся к оценке того, как мы выступили против последнего турнира, как мы это сделали в правиле № 2. С этой новой ценностью для команды, возможно, мы поймем некоторые идеи, которые могли упустить, например, если бы Калифорнийский университет в Лос-Анджелесе играл по более жесткому графику, который помог им подготовиться к игре с высоким давлением.

Применение и улучшение правила № 3 на примере

Теперь, когда у нас есть более сложное правило, давайте подумаем, как мы будем строить его по частям для восточного региона выше.

Скажем, мы знаем, что сила графика поможет нам правильно выбрать победителя UCLA vs BYU, поэтому мы сначала добавляем его в нашу функцию ценности команды.

Ценность(команда) =посев+ Сила расписания

К сожалению, мы забыли, что сила графика Джорджтауна действительно высока, и он неправильно выбирает их для победы над Колорадо. Таким образом, для этих двух игр наше старое начальное правило имеет одинаковую оценку 50%. Вместо того, чтобы выбрасывать эту статистику в мусорное ведро, давайте подумаем о другом способе допустить эту информацию, не разрушая другой наш прогноз. Если мы просто разделим силу расписания на два, это позволит нам учесть эту статистику и правильно выбрать обе игры.

Ценность(команда) = seed+ (1/2)*Сила расписания

Глядя на остальную часть этого Восточного региона с этим правилом, мы не пропускаем никакие другие игры случайно. Поскольку мы прогнозируем еще 1 правильного победителя с этим правилом в этом регионе, давайте улучшим его. Но давайте не просто улучшать его, давайте жадничать. Мы знаем, что Абилин Кристиан занимала первое место по эффективности командной защиты по версии TeamRankings.com, поэтому давайте воспользуемся этим преимуществом, чтобы предсказать желанное поражение Техаса со счетом 3 против 14. Поскольку у нас есть только разрешенные очки за игру в качестве функции, давайте умножим это на -1, чтобы дать более высокое значение командам, которые позволяют меньше очков за игру.

Значение(команда) =посев+ (1/2) * Сила расписания + (-1) * Разрешенные очки за игру

Эта новая функция ценности команды дала нам то, что мы хотели: предсказать, что Абилин Кристиан расстроит Техас. Однако мы потеряли предсказания для других, которые мы ранее выбрали правильно. Теперь нам нужно снова пройти все игры и скорректировать нашу функцию ценности команды, чтобы учесть их. Проделав гораздо больше математики, чем кто-либо из нас хотел, мы сделали это.

Значение(команда) = (0,8)*посев+(0,4)* Сила расписания + (-0,5)* Разрешенные очки/игра

Пока в нашем распоряжении будет больше статистических данных, решимость провести достаточно математических расчетов и время для подсчета чисел, мы, надеюсь, сможем найти какое-то правило, которое правильно предскажет весь Восточный регион. Мы могли бы даже сделать шаг назад и попытаться построить эту функцию ценности команды, которая правильно предсказывает весь прошлогодний турнир.

При чем тут машинное обучение?

Правило № 3 сделало несколько масштабных шагов в мир машинного обучения, некоторые из которых слишком сложны, чтобы даже упоминать их здесь. Самый основной и самый важный шаг, который мы предприняли, — это рассмотреть нашу проблему через призму математики. Фундаментальная идея использования функции для определения ценности команды лежит в основе машинного обучения. Пока мы выбирали статистику, которую хотели использовать в нашей функции ценности команды, мы проходили практику так называемой разработки функций. Числовое значение, которое мы помещаем перед различными статистическими данными (также известными как функции), называется весом в машинном обучении. Поиск наилучших весов для максимизации числа правильных прогнозов — это процесс обучения (т. е. подгонки) нашей модели. Создание значения для каждой команды и сравнение этих значений для определения победителя игры позволило нам количественно определить, становимся ли мы лучше или хуже в прогнозировании. В машинном обучении термин функция потерь используется для определения того, насколько вы были близки к ожидаемым прогнозам.

Большая картина

Оглядываясь назад на наше правило № 3, мы могли бы потратить столько же времени на добавление дополнительных характеристик и корректировку весов, чтобы правило правильно определяло 100% победителей прошлогодних турнирных игр. Проблема в том, что когда вы расслабляетесь и с гордостью смотрите на свою работу, будете ли вы действительно уверены в том, что выберете Орала Робертса с 15 сеяными, чтобы победить штат Огайо с 2 сеяными, когда сетка выйдет в этом году? Это нормально быть уверенным, потому что это произошло, но вы можете в конечном итоге обезуметь, когда в этом году это правило вместо этого вызывает разочарование по поводу такой команды, как Вилланова с двумя посевами в 2016 году, которая выиграла национальный чемпионат. Это просто означает, что определить универсальное правило для всех сложно.

Построив модели машинного обучения для двух последних турниров March Madness, вы получите еще более глубокое понимание разочарований, суматохи и каждого яркого момента. В 2019 году моя модель обогнала меня и заняла 1-е место в пуле моей группы друзей и попала в топ-81% рейтинга ESPN. В 2021 году я превзошел свою модель, финишировав в 98% лучших, а моя модель попала в 78% лучших.

В части № 2, которая выйдет позже на этой неделе, мы расширим классификатор правила № 3 с помощью визуализаций и погрузимся в фактическое создание такой модели для конкурса Madness Kaggle в марте 2022 года. Надеюсь увидеть тебя там!