Обучение науке о данных: день 5 - Обработка данных в наборах данных Titanic

Сегодня я решил побольше узнать о Titanic Datasets. На изучение самого Titanic Datasets у меня ушло довольно много времени, так что в итоге у меня не было больше времени на изучение других материалов. Итак, вот что я узнал из наборов данных Titanic, особенно по обработке данных.

Краткое описание конкурса

Полное описание самого конкурса доступно по ссылке ниже.

Титаник: машинное обучение после катастрофы | Kaggle
Kaggle - это ваш дом для науки о данных. Получите новые навыки, сделайте карьеру, сотрудничайте с другими специалистами по данным и… www.kaggle.com

Я расскажу только об итогах конкурса. Таким образом, в основном сами наборы данных состоят из данных о пассажирах Титаника, в данных обучения они дают нам кучу информации о пассажирах, включая имя, пол, возраст, класс пассажира, стоимость проезда и т. Д. Одна из самых важных вещей в данных обучения - это значение, которое показывает, выжил ли конкретный пассажир в результате происшествия. Основываясь на этих данных, мы должны быть в состоянии предсказать, кто выжил в инциденте или нет, по данным тестирования. Сегодня мы не будем подробно останавливаться на каждом шаге, а просто кратко остановимся на обработке данных.

Исследование данных

Прежде всего, нам нужно изучить наши данные и сделать такие вещи, как идентификация переменных и некоторый анализ, чтобы определить интересные вещи, которые могут помочь в использовании наборов данных. Это будет объяснено более подробно в будущих рассказах.

Обработка данных

Заполнение существующих нулевых значений

Важно отметить, что некоторые данные в наборах данных недоступны. У некоторых пассажиров нет значения "Возраст", для некоторых - "Стоимость проезда" и т. Д. Итак, что нам с ними делать? Должны ли мы просто удалить их все? Есть лучшая альтернатива, вместо удаления этих данных, мы можем заполнить их всеми значениями.

Самый простой способ сделать это - заполнить нулевые данные средними значениями. Например, если средний возраст пассажиров составляет 28 лет, мы можем присвоить всем нулевым значениям 28. Но такой подход слишком общий, должен быть другой способ повысить точность заполнения нулевых значений.

Проблема с использованием среднего значения заключается в том, что иногда есть только несколько пассажиров, у которых очень высокие значения, и медиана является хорошей альтернативой для этого. Итак, вместо использования среднего мы можем использовать медианное значение. Если мы пойдем дальше, мы можем перейти на другой уровень.

Фактически мы можем сделать более конкретное медианное или среднее значение (в зависимости от того, какое из них вы хотите использовать) с определенным условием. Итак, предположим, что средний возраст женщин составляет 28 лет, а средний возраст мужчин - 30 лет. Таким образом, мы присвоим нулевое значение 28, если пассажир - женщина, и присвоим нулевое значение 30, если пассажир мужчина.

Если данные не являются числом, а представляют собой текст, например значения в столбце Embarked, мы можем проверить наиболее частые значения. Остающийся шаг будет таким же с числовыми значениями.

Перевести текст в число

Вы можете найти несколько столбцов, заполненных текстом, а не числом, например, «Пол», где мы можем видеть значения «женский» или «мужской», или «Embarked» со значениями «S», «C» или « Q '. Нам лучше перевести эти значения в числовые. Мы можем присвоить, например, «0» для женщин, «1» для мужчин. Это также применимо к столбцу «Начал», где мы можем присвоить «0» для «S», «1» для C и «2» для «Q».

Функциональная инженерия

Мы также можем добавить дополнительные функции, которые пока недоступны, например, умножение «Возраст» и «Pclass», возможно, между ними есть корреляция.

Моделирование данных

По сути, после выполнения предыдущих шагов мы можем смоделировать нашу модель. Есть некоторые определенные техники, такие как Случайный лес, они будут рассмотрены в следующих рассказах.

Заключительные слова

Сегодня был для меня довольно загруженный день, у меня действительно нет времени над этим работать. Итак, это единственное, над чем я могу работать над историями об изучении науки о данных. Надеюсь, в будущем я смогу больше работать над темой науки о данных. Если у вас есть какие-либо ответы, предложения, комментарии или исправления, я хотел бы это услышать, и, возможно, мы сможем это обсудить. Увидимся в завтрашней истории!