Олимпийский — это бог спорта, который проводится каждые 4 года с множеством возможностей для занятий спортом и многочисленными спортивными мероприятиями, происходящими в каждой стране, пытающейся сделать все возможное, чтобы быть на вершине. Девиз здесь - проанализировать ДНК победителей и то, что нужно, чтобы заработать олимпийскую медаль для каждой страны.

Источники данных

https://www.olympic.org/olympic-results

- 3 файла (Вся история, История победителей, Статистика страны)

Бизнес-проблема

Первые современные Олимпийские игры начались в 1836 году, и с тех пор олимпийское золото было мечтой каждой страны. Поскольку страны тщательно готовились к каждой сетке Олимпийских игр (4 года), я попытался проанализировать, что требуется для завоевания олимпийской медали в зависимости от страны, вида спорта и спортсмена. Это может помочь каждой стране подготовить свою победную ДНК.

Вопросы и гипотезы

Что характерно для спортсменов, завоевавших медали?

На каких видах спорта для каждой страны они должны сосредоточиться?

Учитывая экономический статус, какова вероятность выиграть медаль для страны?

Как связаны виды спорта, поэтому, если страна выигрывает один вид спорта, на каком другом виде спорта ей следует сосредоточиться?

Сбор и очистка данных

Данные были представлены на веб-сайте Олимпийских игр, и в них много неточностей.

Вменение данных было выполнено для всех числовых столбцов путем замены средним значением.

Для всех категориальных переменных добавляются фиктивные переменные.

Данные сгруппированы, и сводная статистика использовалась для получения подмножеств данных на основе различных параметров.

Данные о населении и победителях загружаются и объединяются в R.

Постановка задачи

Проанализируйте исторические данные об Олимпийских играх на основе определенных характеристик спортсменов, а также характеристик страны и вида спорта, чтобы определить, что нужно для создания победной ДНК каждой страны на Олимпийских играх.

Инструменты и технологии

-R Ноутбуки

-Таблица

-XL Шахтер

Библиотеки

· Дплыр

· Быстрые манекены

· Вменить

· Машина

· Нейронная сеть

· Кластер

· Ансамбль случайного дерева

· правила

План

· Используйте алгоритм кластеризации Kmeans, чтобы сгруппировать спортсменов и узнать ДНК спортсменов, то есть их рост, вес и пол для каждой группы, а также вероятность выиграть олимпийскую медаль.

· Используйте ANN, чтобы использовать ДНК спортсмена, чтобы классифицировать, какова вероятность выиграть золотую, серебряную и бронзовую медаль.

· Используйте правила ассоциации, чтобы узнать вероятность победы в виде спорта B, если пользователь выиграл в виде спорта A.

· Используйте Tableau, чтобы показать, какой вид спорта благоприятен для каждой страны, чтобы выиграть медаль, и сравнить страны по данному виду спорта.

· Используйте XL Miner для создания дерева ансамбля, чтобы определить вероятность того, что страна выиграет золото, серебро и бронзу в зависимости от их экономического положения.

Анализ и результаты

Результаты кластерного анализа:

Здесь мы разделили данные на 3 кластера на основе осыпи, и в I группах можно увидеть следующие характеристики:

· В кластере 1 преобладают женщины и всего 5% мужчин, а их средний возраст составляет 24 года.

· Кластер 2 гендерно нейтрален, имеет хороший рост и высокую вероятность завоевания медалей.

· Группа 3 – мужчины, у них больше рост и вес, но меньше шансов выиграть медали.

Нейронная сеть:

Выше мы видим, как нейронная сеть создается с возрастом, ростом, весом, полом и годом в качестве входных данных и золотом, серебром и бронзой в качестве выходных данных.

В сети есть 2 скрытых слоя.

Матрица путаницы сообщает нам количество правильно идентифицированных и ошибочно идентифицированных значений.

Набор тестовых данных составляет 20% от всего набора данных.

Дерево ансамбля:

Основываясь на экономическом статусе и году каждой страны, мы прогнозируем возможность страны получить золотую серебряную или бронзовую медаль.

Показатель точности составляет 47%, так как нам нужно больше данных о стране и других данных, которые не были доступны и могли бы повысить эффективность алгоритма.

Правила ассоциации:

Здесь мы определили виды спорта, в которых, если страна выиграет медаль, в каких других видах спорта она, скорее всего, выиграет.

Если мы посмотрим на наш набор данных, мы увидим, что легкая атлетика, плавание и стрельба идут рука об руку, поэтому, если страна выигрывает в каком-либо из вышеперечисленных видов спорта, она должна сосредоточиться на другом виде спорта, который идет вместе, чтобы увеличить количество медалей.

Медали Tableau Country wise:

Если мы видим здесь, что мы выбрали страну как IND, и мы видим, что Ind выигрывает медали в хоккее, альпинизме и борьбе, поэтому он должен сосредоточиться на них. Кроме того, в приведенной ниже таблице мы можем узнать, кто соревнуется. Как и в случае с альпинизмом, мы знаем, что GBR - хорошее соревнование.

Вывод

Итак, мы провели множественный анализ данных об Олимпийских играх и получили следующие результаты для наших заинтересованных сторон, то есть для каждой страны:

· Спорт, на котором будет сосредоточена данная страна

· Виды спорта, которые идут вместе на пути к медали

· ДНК спортсмена для завоевания медали

· Как экономическое положение страны влияет на получение медали

Будущая работа

Точность некоторых алгоритмов низкая из-за отсутствия точек данных. Будущая работа будет заключаться в сборе большего количества данных и запуске тех же моделей с новыми точками данных, что поможет повысить точность модели.

использованная литература

https://www.analyticsvidhya.com/blog/2017/09/creating-visualizing-neural-network-in-r/