Можно ли использовать модели машинного обучения для прогнозирования того, будет ли какой-либо данный колледж QB составлен?

Автор: Харрисон Холл

tl;dr — вот копия моего плаката, на котором я представлял этот проект в Школе информации Мичиганского университета (UMSI) Project Showcase осенью 2021 года.

Абстрактный

Ни один защитник (QB) в студенческом футболе не уверен в том, будет ли он выбран для игры в Национальной футбольной лиге (NFL). Исторические модели драфта должны использоваться для оценки вероятности того, что QB любого данного колледжа будет выбран для игры в НФЛ. Этот проект направлен на то, чтобы сместить повествование об анализе футбола на основе данных с определения успеха игрока в НФЛ на определение порога входа в НФЛ в первую очередь.

Введение

В то время как современные специалисты по данным и статистики предоставляют достаточную информационную поддержку для прогнозирования успеха QB в НФЛ, существует серьезная нехватка подобных исследований, проведенных в отношении барьера для входа в НФЛ.

Я разработал классификационную модель, чтобы предсказать, будет ли какой-либо данный колледж QB включен в НФЛ. Модель основана на исторической статистике прохождения QB в колледже, демографических данных игроков и количестве лет, в течение которых QB соревновался в колледже.

Я структурировал разработку этого проекта, следуя ряду этапов, более подробно описанных в разделе «План работы» в конце этого документа. Во-первых, я собрал все необходимые данные для своего проекта, которые подробно описаны в разделе «Данные». Во-вторых, я расширил данные из различных источников, нарисовав связи на основе уникальных значений идентификаторов игроков, прежде чем проводить корреляционные тесты, чтобы определить наиболее важные переменные для прогнозирования того, будет ли составлен QB. В-третьих, я протестировал 8 различных моделей, чтобы найти наиболее подходящую модель классификации для проекта. Наконец, я применил модель к ряду соответствующих данных, чтобы предсказать, будет ли каждый из стартовых QB в дивизионе «большой десятки» выбран в следующем году.

Футбольные фанатики, вероятно, больше всего заинтересуются этой моделью, поскольку она может помочь болельщикам чувствовать себя более или менее уверенными в будущем своих любимых игроков. Хотя эта модель не принесет значительной пользы фанатам, она, по крайней мере, может оказать на них эмоциональное воздействие. Например, если модель обнаружила, что QB из Мичигана, скорее всего, будет выбрана в следующем году, то фанаты из Мичигана могут быть более склонны покупать одежду с именем этого QB, чтобы опередить всех, или в целом более страстно поддерживать этого QB. .

Кроме того, эта модель может интересовать отдельных QB американского футбола и их тренеров, потому что они могут лучше понять вероятность того, что QB получит шанс сделать карьеру в профессиональном футболе. Это знание важно для QB колледжей, чтобы решить, следует ли им расширить свои навыки за пределами футбола или подготовиться к карьере в спорте. В частности, QB могут лучше понять, на улучшении каких показателей эффективности им следует сосредоточиться, чтобы увеличить свои шансы быть выбранными на предстоящем драфте НФЛ.

Наконец, модель может помочь некоторым QB чувствовать себя более уверенно в своей вероятности быть выбранным на драфте, потому что модель обнаруживает, что определенные функции, которые QB труднее изменить, чем просто лучше работать на поле, менее важны, чем индикаторы на поле. . Например, QB из небольшой школы без исторически сильной футбольной программы может почувствовать больше надежды на свои перспективы вступления в НФЛ после взаимодействия с этой моделью, потому что модель не будет учитывать школу, в которой учится QB. Не совсем ясно, как это влияет на точность модели, потому что модель предназначалась только для прогнозирования QB в более крупных футбольных программах.

Определение проблемы

Мой исследовательский вопрос заключается в следующем: «Могут ли модели машинного обучения использоваться для прогнозирования того, будет ли какой-либо данный колледж QB составлен?»

Этот проект предсказывает, будет ли конкретный QB выбран в НФЛ, на основе исторических моделей драфта и демографических данных игроков. Хотя собирать данные и интерпретировать футбольную статистику достаточно просто, существует серьезный пробел в способности применять эти знания к вопросам о жизни после окончания колледжа. В большинстве лет мы видим двух или трех звездных QB, которые почти гарантированно будут выбраны для профессионального драфта НФЛ. Однако подавляющее большинство QB не имеют этой информационной привилегии.

Этот проект специально ориентирован на игроков на позиции QB из колледжей и университетов Дивизиона 1 с программами американского футбола в «Подразделении футбольного мяча». Этот проект помогает ответить на вопрос: «Будет ли этот QB составлен в следующем году?»

Этот проект не пытается предсказать, в какую команду может быть выбран конкретный QB. Кроме того, алгоритм не зависит от того, действительно ли какой-либо данной команде НФЛ нужен QB или нет. Будущие разработки этого проекта, безусловно, должны отвечать насущным потребностям конкретных программ НФЛ.

Успех проекта измеряется на основе способности модели точно предсказывать истинные положительные результаты (когда модель предсказывает, что QB будет составлен, а QB фактически был составлен) и истинно отрицательные (при этом модель предсказывает, что QB НЕ будет составлен. , а QB на самом деле НЕ составлялся). Эта метрика также будет изменена частотой ложноположительных и ложноотрицательных результатов; т. е. как часто модель делает неверный прогноз.

Связанных с работой

Несмотря на то, что профессиональные футбольные прогнозы являются горячей темой, особенно на фоне недавнего появления AWS Next Gen Stats, большинство прогностических моделей, которые в настоящее время публикуются и циркулируют в академических кругах, сосредоточены на ответе на следующий вопрос: Насколько вероятно, что этот колледж QB преуспеет? в НФЛ?». Хотя это, безусловно, важный вопрос, существует бесчисленное множество Х-факторов, которые делают точное предсказание почти невозможным. Как эти модели могут объяснить риск травм QB? Как модель учитывает эффективность других игроков команды, таких как лайнмены, предназначенные для защиты QB, или принимающие, которым необходимо выполнять передачи?

Напротив, моя модель специально разработана таким образом, чтобы перестать делать прогнозы после того, как состоится драфт НФЛ. Моя модель предназначена исключительно для прогнозирования того, будет ли конкретный QB выбран на предстоящем драфте НФЛ. Мой проект не распространяется на успех любого данного QB после того, как они вошли в НФЛ. Я выбрал более простой подход к более простому вопросу.

Существует одно конкретное исследование с другой целью, на которое следует сослаться здесь. Caudill, Mixon and Mixon опубликовали это соответствующее исследование, в котором предлагается использовать евклидово расстояние, ранговые корреляции Спирмена и пользовательский показатель неправильного распределения доллара при оценке прогнозов фиктивных драфтов НФЛ. Любую или все эти метрики можно использовать для проверки точности моей модели. Однако, в отличие от моего проекта, их исследование ограничено оценкой ложных прогнозов драфта НФЛ; он не предназначен для создания новых предварительных прогнозов и не ориентирован на QB. В то время как это исследование оценивает работу, проделанную экспертами и комментаторами, мой проект предназначен для автоматизации той работы, которую они оценивают. Тем не менее, технические детали их системы оценки точности модели могут дать информацию для будущих исследований по точной настройке моего подхода.

Другое релевантное исследование — от Вольфсона, Аддоны и Шмикера — применяет более традиционные статистические подходы к успеху выбранных QB после того, как они вошли в НФЛ. Опираясь на данные о производительности QB в период с 1997 по 2009 год, их исследование построило модель, основанную на логистической регрессии и отрицательной биномиальной регрессии. Тем не менее, их исследование предсказывает успех QB после того, как они войдут в НФЛ, в то время как мой проект просто предсказывает, будет ли QB иметь шанс войти в первую очередь.

Помимо футбола, есть еще одно важное исследование, которое более тесно связано с моим проектом, чем другие. Это исследование — от Харриса и Берри — посвящено прогнозированию профессионального драфта Национальной женской баскетбольной ассоциации (ЖНБА). В то время как изученные в исследовании отношения между факторами результативности и неэффективности могут оказаться полезными при оценке моей модели, фундаментальные различия между баскетболом и футболом могут оказаться слишком значительными, чтобы установить глубокую связь между нашими работами. Информация, полученная при использовании в исследовании модели распределения Пуассона и отрицательной биномиальной модели, может обеспечить актуальность исследования для моего проекта.

Наконец, вышеупомянутое исследование Харриса и Берри опирается на предыдущее исследование, проведенное Берри и Симмонс. Их исследование специально предназначено для анализа того, как факторы производительности влияют на решения команд НФЛ о том, выбирать ли конкретный QB для драфта НФЛ. Это исследование оказалось чрезвычайно ценным на этапе исследования моего проекта, поскольку помогло мне понять набор данных, с которым я работал. Их исследование основано на показателях производительности игроков, таких как статистика передач.

Тем не менее, их исследование также оценивает производительность QB в Скаутском объединении НФЛ, сеансе нескольких физических и психологических тестов, используемых лицами, принимающими решения в НФЛ, при выборе драфта. Исключительно исходя из моей собственной интуиции, использование данных, собранных Скаутским объединением НФЛ, может смазать результаты из-за нереалистичных данных, когда QB не сталкивается с типичным давлением реальной игры, таким как взаимодействие с защитниками соперника. игроки. Есть основания утверждать, что, хотя данные Альянса могут неточно отражать истинные возможности QB, они все же проливают некоторый свет на то, найдет ли разведчик QB подходящим для играть в НФЛ. Тем не менее, их исследование включает в себя соображения о вероятности успеха данного QB во время соревнований в НФЛ, что все еще выходит за рамки моего проекта.

Начальный сбор данных

В этом проекте используются данные по статистике QB с 2004 года. Эти данные получены из API CFBD, который был сгенерирован в рамках проекта Swagger Codegen. Эти данные включают информацию о QB из колледжей и университетов в Football Bowl Subdivision (FBS) в период с 2004 по 2021 год. 2020. Первый год назначен на 2008 год, поэтому в анализ включены 4 года футбольной карьеры QB в колледже. Источник исторических рейтингов драфтов общеизвестен, но я взял информацию из DraftHistory. Третий и последний источник данных — SportsReference, который я использовал для сбора демографических данных игроков. В частности, я использовал SportsReference API (бесплатная пробная версия), чтобы узнать рост (в футах и ​​дюймах) и вес (в фунтах) для каждого отдельного QB.

Требовалась обширная предварительная обработка этих данных. Например, данные из API CFBD включали только информацию о QB из «Подразделения футбольного мяча» (FBS), а не «Подразделения футбольного чемпионата» (FCS). Соответственно, десять QB НФЛ не включены в анализ:

  • Трей Лэнс (штат Северная Дакота);
  • Бен ДиНуччи (Джеймс Мэдисон);
  • Истон Стик (штат Северная Дакота);
  • Кайл Лаулетта (Ричмонд);
  • Карсон Венц (штат Северная Дакота);
  • Джимми Гаропполо (Восточный Иллинойс);
  • Брэд Соренсен (Южная Юта);
  • Джон Скелтон (Фордхэм);
  • Кейт Налл (West Texas A&M);
  • Джош Джонсон (Университет Сан-Диего).

Кроме того, Террелл Прайор был исключен из набора данных, поскольку он был выбран в «Дополнительном драфте» 2011 года вместо ежегодного «драфта НФЛ» 2011 года.

Без доступа к словарю, используемому SportsDataIO для связи имен игроков с их уникальными значениями идентификатора игрока, мне нужно было вручную воссоздать ссылки для поиска каждого QB в соответствующей базе данных. Этот трудоемкий процесс потребовал обширной тонкой настройки комбинации основных методов конкатенации строк с RegEx для управления регулярными выражениями. На вопрос SportsDataIO о получении доступа к этому словарю они ответили, что мне нужно приобрести премиум-подписку для такого доступа, что не входило в мой студенческий бюджет. Учитывая процесс создания URL-адресов вручную, который был основой для сбора демографической информации об игроках, данные необходимо было уменьшить в размере. Будущие исследования должны разработать более сложную систему для обеспечения целостности при запросе демографической информации об игроках.

Всего в наборе данных 1317 QB, из которых 126 QB были успешно выбраны в НФЛ в период с 2004 по 2020 год. Я намеренно исключил QB в 2021 году, потому что сезон 2021 года еще не завершился, поэтому их статистика не была завершены, и им еще не была предоставлена ​​возможность составить проект. Тем не менее, я сохранил статистику по текущим QB в 2021 году, чтобы предоставить проницательные и актуальные прогнозы того, как текущие QB могут развиваться, если завтра состоится драфт НФЛ.

Для каждого игрока данные первоначально сообщали о следующих переменных для каждого года игры в студенческом футболе:

  • Тачдауны (ТД);
  • Перехваты (INT);
  • Проходные дворы (PY);
  • Попытки прохождения (ATT);
  • Выполненные проходы (CMP);
  • Процент сдачи (PCT);
  • Количество ярдов за попытку передачи (YPA);
  • Название футбольной команды колледжа QB;
  • Высота (футы и дюймы);
  • Вес (фунты).
  • Каждому QB присваивается уникальное значение идентификатора игрока.

Расширение функций

Я расширил первоначальный набор данных до следующих функций для каждого отдельного QB:

  • Тачдауны (ТД);
  • Перехваты (INT);
  • Проходные дворы (PY);
  • Попытки прохождения (ATT);
  • выполненные проходы (CMP);
  • Процент сдачи (PCT);
  • Количество ярдов за попытку передачи (YPA);
  • Вес (фунты);
  • Высота (футы и дюймы);
  • Количество студентов, обучающихся в их колледже;
  • Годы, в которые QB появляется в наборе данных — количество лет, в течение которых они активно соревновались в студенческом футболе с более чем 5 попытками передачи;
  • Конференция, в которой участвует колледж QB. Некоторыми примерами конференций являются «Большая десятка», «Pac-12», «SEC» и «C-USA».

Вот краткое объяснение того, как я собрал новые функции. Выше я объяснил, как я извлек характеристики роста и веса QB с помощью SportsDataIO API. Поскольку набор данных включал статистику по каждому QB за каждый год, было много игроков со статистикой за несколько лет; 4566 игроков имели статистику как минимум за 1 год, записанную в наборе данных. В конце концов, этот факт окажется полезным в качестве важного корреляционного признака в прогностической модели. Я вручную ввел количество студентов, зачисленных в колледж, и конференцию, в которой участвует колледж. Хотя процесс ручного ввода данных о зачислении в колледжи и конференциях, в которых участвует каждый колледж, не идеален и может привести к искажению информации, я согласен с этим, потому что эта точка данных в конечном итоге была исключена из рассмотрения на этапе выбора функций.

Выбор функции

Прежде чем разрабатывать какие-либо модели, я хотел сузить свой довольно большой (26) набор функций. Я проанализировал корреляции между каждой функцией отдельно с помощью зависимой переменной, которая была булевой величиной того, был ли QB включен в NFL. Я использовал встроенную функцию Pandas, corr (), чтобы создать матрицу корреляции и визуализировать корреляции в виде Тепловой карты с Seaborn. Рисунок 1 демонстрирует результирующую матрицу корреляции, отсортированную по корреляции между функцией и черновыми значениями.

Основываясь на коэффициентах корреляции, я решил ограничить свои функции только теми, у которых коэффициент корреляции больше 0,15. Таким образом, соответствующие функции для моей модели стали:

  • Количество приземлений («td»);
  • Количество пройденных ярдов («ярдов»);
  • Количество завершений прохождения («завершений»);
  • Количество попыток прохождения («атт»);
  • Количество выполненных перехватов («int»);
  • Вес QB («вес»);
  • Количество лет, в течение которых QB участвовал в соревнованиях по студенческому футболу («количество лет игры»).

Методология

На данный момент все данные для моего проекта собраны и объединены в единый набор данных. Рисунок 2 представляет собой небольшую иллюстрацию моего набора данных после того, как были выбраны соответствующие функции. Полезно отметить, что к этому моменту я уже удалил имена игроков из набора данных. Из личного интереса я хотел бы сообщить, что два игрока, отмеченные как выбранные на Рисунке 2, — это Том Брандстейтер (2009 г.) и Стивен МакГи (2009 г.).

Я провел базовый тестовый сплит поезда с использованием функции выбора модели Sci-kit Learn. Я провел разделение 75–25, используя случайное значение состояния 671, отсылку к популярному курсу Мичиганского университета. Затем я применил MinMaxScaler — также из Sci-kit Learn — для подгонки и преобразования обучающих данных, преобразуя только данные тестирования.

Я построил 8 различных моделей машинного обучения для этой задачи контролируемой классификации. Модели, которые я тестировал, следующие:

  • гауссовский наивный байесовский метод;
  • Наивный Байес Бернулли;
  • К-Соседи;
  • Машина опорных векторов;
  • Логистическая регрессия;
  • Древо решений;
  • случайный лес;
  • Повышение градиента.

Я в значительной степени полагался на функцию GridSearchCV() Sci-kit Learn, которая позволяла мне эффективно тестировать различные гиперпараметры для точной настройки моих моделей.

Для каждой модели я использовал 5-кратную метрику перекрестной проверки, чтобы предотвратить переобучение или систематическую ошибку выбора при обучении моих моделей.

Оценка

Я сравнил свою модель с реальными результатами составления QB на основе истории.

Сравнив показатели средней абсолютной ошибки, точности и перекрестной проверки, я определил, что классификатор RandomForest является лучшим предсказателем шаблонов черновика QB. Эта модель классификации RandomForest имела среднюю среднюю ошибку 0,067, показатель точности 0,9333 и показатель перекрестной проверки (5-кратный) 0,9173.

Модель классификации RandomForest использует следующие гиперпараметры: 50 оценок (50 деревьев в лесу), критерий джини (который используется для измерения качества разделения, где джини представляет примесь Джини), максимальная глубина дерева равна 10, минимальное количество выборок для каждого конечного узла равно 5, и 1 задание должно выполняться параллельно.

Обсуждение

Сбор данных и этапы организации были, безусловно, самыми сложными и трудоемкими компонентами этого проекта. Объединение информации из широкого спектра источников, включая API с ограниченным доступом и ручной ввод, требовало значительного внимания к деталям и могло привести к некоторой неточной информации об игроке в моей окончательной модели. Перед моделированием я просмотрел свои данные несколько раз, но такой уровень детализации не должен быть нормой, когда дело доходит до построения прогностической модели. Приобретение платной подписки на полезный API, такой как API, размещенный SportsDataIO, окажется очень полезным для сокращения времени и усилий, необходимых для подключения различных источников данных.

Эксперты по драфту НФЛ, энтузиасты и аналитики могут быть удивлены, узнав, что, согласно фазе отбора характеристик моего проекта, колледж и конференция, в которых соревновался QB, не оказывают столь значительного влияния на вероятность их попадания в драфты. НФЛ как измерение производительности (коэффициент корреляции 0,1). Хотя в разделе Будущая работа будет описано, как, по моему мнению, можно улучшить модель, чтобы лучше учитывать колледж и конференции, текущие результаты показывают, что такие факторы не стоят рассмотрения.

Кроме того, такие заинтересованные стороны могут быть удивлены, узнав, что высота QB также не важна, с коэффициентом корреляции примерно 0,12. Конечно, у этого утверждения есть ограничения: средний рост QB в наборе данных составляет 6 футов и 2 дюйма, что примерно на 4 дюйма больше, чем средний рост всех мужчин в Соединенных Штатах. Рост, вероятно, является важным фактором при выборе QB, но такая функция уже может быть применена для отсеивания потенциальных QB американского футбола, прежде чем они будут считаться кандидатами на драфт НФЛ. По сравнению с другими QB, которые могут быть составлены в следующем году, высота любого QB в наборе данных не имеет значения.

Важно отметить, что прогнозы в моей модели не выходят за пределы текущего года. А именно, модель может только предсказать, будет ли данный QB составлен в этом году, а не в каком-либо из следующих лет. Таким образом, предсказание модели о том, что Кейд Макнамара — звезда QB Мичиганских Росомах 2021 года — не будет выбран на драфте, для некоторых может стать обескураживающим сюрпризом. Тем не менее, отметив это ограничение, можно возродить надежды стойких фанатов Макнамары, потому что он зарегистрировал статистику QB только за два года, и, следовательно, у него еще есть как минимум два года права играть в футбол в Мичигане и набирать более впечатляющий QB. статистика.

Модель предсказывает, что следующие семь QB будут выбраны в НФЛ в предстоящем драфте:

Хотя Си Джей Страуд и победитель Heisman Trophy 2021 года Брайс Янг могут быть невероятно привлекательными для программ НФЛ после их звездных выступлений в 2021 году, они не имеют права быть призванными в НФЛ, пока не закончатся годы обучения в колледже. Даже несмотря на это, невооруженным глазом простого футбольного фаната, такого как я, все семь из этих QB, вероятно, были бы выбраны в НФЛ в следующем году, если бы могли. Моя модель проходит внутреннюю проверку.

Будущая работа

Этот проект не следует рассматривать как конец всех предсказаний вероятностей сквозняка. Существует еще достаточно данных, которые можно было бы включить в будущие итерации аналогичной прогностической модели, перечисляемой в этой статье.

Данные по конкретной статистике QB также должны быть масштабированы в будущих разработках, особенно с учетом того, за какой колледж играл каждый QB. Например, QB в исторически высокоэффективном колледже, таком как Алабама, возможно, следует оценивать иначе, чем QB в менее доминирующей школе. Это важное соображение, потому что, в отличие от НФЛ, колледжи каждый год набирают лучших игроков на основе достигнутых успехов в предыдущем году, поэтому QB из Алабамы, вероятно, имеет лучших приемников — и, следовательно, предрасположен к регистрации лучшей статистики передач — чем QB. может быть из менее исторически успешного колледжа.

Будущие усовершенствования этой прогностической модели должны учитывать факторы времени. В последние годы НФЛ продемонстрировала увеличение желательности мобильных QB по сравнению с традиционными карманными распасовщиками, по крайней мере, с точки зрения начисления очков в фэнтези-футболе. Это может повлиять на ценность статистики пасов и потребовать, чтобы будущие модели также включали статистику рывков QB, например, количество пройденных ими ярдов и количество приземлений, которые они совершают за сезон.

Еще одно важное ограничение моего проекта, которое следует учитывать при построении будущей аналогичной модели, — это потребности и желания нынешних команд НФЛ. Если команда НФЛ набрала нового QB, который, как ожидается, станет успешным QB франшизы, то этой конкретной команде НФЛ, вероятно, не нужно будет выбирать еще одного QB еще несколько лет. Учитывая необычные QB в драфт-классе НФЛ 2021 года наряду с сокращающимся числом QB франшизы, которые приближаются к пенсионному возрасту, я ожидаю, что вероятность того, что QB будет выбран, резко изменится в будущем.

Пожалуйста, свяжитесь со мной с вопросами, критикой или чтобы начать разговор по адресу [email protected]