Обзор

Наверняка вы знаете футбольную игру FIFA. Он уникальным образом объединяет страсть людей к играм и интерес к футболу. FIFA позволяет вам управлять практически любой понравившейся командой и весело проводить время с лучшими игроками мира, не выходя из дома.

Недавно Electronic Arts, игровая компания, создающая и развивающая FIFA, выпустила официальные наборы данных игроков, что дает любому возможность понять, как оцениваются футболисты. Действительно, это означает, что люди, не интересующиеся футболом, также могут понять игру и рейтинги футболистов.

Разбивка данных

Начнем с описания набора данных. Это таблица, в которой каждая строка соответствует одному футболисту, а в столбцах представлены физические характеристики футболистов (возраст, лицо, телосложение и т. д.), личные характеристики (зарплата, клуб и т. д.), технические навыки (пересечения, реакции и т. д.). ) и выступления на разных позициях (вратарь и т.д.). Это может звучать как набор бесполезной информации с игровой точки зрения, но с аналитической точки зрения это основа игры. Достигнутая степень детализации совершенно уникальна: более 80 столбцов, включая более 20 личных качеств и более 25 технических навыков.

Более глубокий анализ данных дает интересные сведения об игровом балансе и о том, как игроков следует объединять и использовать.

Топ-10 клубов и стран по стоимости неудивительны, здесь мы находим в основном испанские и британские команды, а также страны Европы и Южной Америки.

Топ-10 игроков по зарплате занимают известные нам футболисты, а на первом месте Месси, Суарес и Модрич. Имейте в виду, что в суммы заработной платы не входят спонсоры…

Топ-10 игроков по потенциалу роста и по потенциалу роста выше 90 также неудивительны. Игроки довольно хорошо известны среди болельщиков, и любой переход с участием одного из этих игроков приветствуется болельщиками.

Это корреляционная матрица, показывающая корреляцию между характеристиками игроков. Для нетехнических людей он показывает, насколько связаны представленные переменные. Например, если переменная X переходит от значения 1 к 2, и за тот же период переменная Y переходит от 10 к 20, они сильно коррелированы, и коэффициент корреляции между X и Y будет близок или равен 1. Порок и наоборот, если одна переменная Z переходит от 1 к 2, а другая переменная K от 20 к 10, коэффициент корреляции между Z и K отрицателен и близок к -1.

Теперь, не тратя слишком много времени на техническое описание, ясно, что существует хорошая корреляция между представленными переменными: потенциал, общая стоимость, заработная плата и ценность. Каждая из этих переменных имеет тенденцию, которая так или иначе похожа и связана с другими. Однако существует значительная разница между общим значением и значением, установленным ФИФА, особенно по сравнению с заработной платой.

Важно помнить, что общее значение в значительной степени получается как средневзвешенное арифметическое характеристик игроков, в то время как простое значение — это реальное значение, которое ФИФА присваивает игрокам. Заработная плата имеет более высокий коэффициент корреляции с простым значением по сравнению с общим значением, это означает, что ФИФА учитывает в значении некоторые «внешние» факторы при ее расчете.

Вот еще одна корреляционная матрица, на этот раз сравнивающая стоимость, международную репутацию и положение об освобождении. Существует значительная корреляция между суммой, запрошенной в качестве оговорки об освобождении, и стоимостью, установленной ФИФА. Чем выше значение, тем большую цену заплатят другие команды за игрока. Еще одна вещь, которую следует учитывать, это то, что корреляция между международной репутацией и ценностью не так важна. Есть хорошие игроки, хорошо известные в стране, где они играют, но, возможно, не столь известные на международном уровне.

Наконец, мы использовали 3 алгоритма машинного обучения для этих наборов данных.

Во-первых, мы применили линейную регрессию со всеми физическими характеристиками (пересечение, реакции и т. д.), чтобы предсказать общее значение. Количество учитываемых характеристик велико, так как их больше 20. Результат довольно хороший, так как мы получили медиану 0,03 разницы из 100 всего.

Во-вторых, мы использовали линейную регрессию только с некоторыми ключевыми характеристиками (стоимостью, заработной платой и потенциалом) для прогнозирования общей ценности. Результат по-прежнему хорош, так как у нас есть разница в медиане 1,23 на 100 всего.

Наконец, мы использовали классификатор дерева решений, чтобы угадать позицию игрока (вратарь, защитник, полузащитник или нападающий), исходя из его технических характеристик. Результат неплохой, так как можно предсказать с вероятностью 0,85 позицию.

Вывод

Вся эта аналитика полезна не только для игроков, но и для выявления сложности, достигаемой видеоиграми. В центре внимания игровых дизайнеров находится не только графика, но и структура данных FIFA. Конечная цель — воссоздать невероятное количество переменных, действующих в реальном футбольном матче, а улучшения впечатляют и с точки зрения архитектуры данных.