Это блог о моем первом вызове на kaggle. Эта задача содержит данные о пассажирах титанического корабля, и мы хотим предсказать, кто выживет, а кто нет в наборе данных test.csv, изучив шаблоны из набора данных train.csv. Я сделал это с помощью алгоритма машинного обучения.

Данные

В файле train.csv содержится 891 точка данных, а в файле test.csv — 418. В данных поезда есть столбец «Выживший», который определяет, выжил ли человек или нет. Тот же столбец отсутствует в тестовом наборе данных, и наша цель — точно определить, выжил ли пассажир или нет в тестовом наборе данных.

Объяснение

Сначала я загрузил наборы данных поезда и теста в фреймворк данных pandas. Затем я нашел процент мужчин и женщин, выживших на тонущем корабле, на основе данных в train.csv. Около 74% женщин выжили, а 18% мужчин выжили на тонущем корабле. Отсюда можно сделать вывод, что пол является очень значимым параметром для предсказания.

После этого я запустил модель ML, которая представляет собой классификатор случайного леса, который использует несколько деревьев решений и делает прогноз. Параметры, которые я использовал для своего классификатора, — это Pclass, Sex, SubSp и Parch. Я увеличил параметр n_estimators со 100 до 250, который определяет количество деревьев, которые будет генерировать классификатор.

Кредиты

Код, используемый в этом репозитории, взят из пошагового руководства задачи kaggle Titanic Tutorial. Содержание этого блога также основано на том же.

Изображение предоставлено Николя Бохоркес