Анализ данных — это метод оценки и анализа набора данных с использованием логических и аналитических рассуждений, при этом проверяется каждый из компонентов этого набора данных. Это первый шаг в любой работе, связанной с данными.

Процесс анализа данных

Анализ данных состоит из 5 основных этапов: 1. Задавать вопросы. 2. Обработка данных. 3. Исследовательский анализ данных. 4. Подведение итогов. 5. Результаты коммуникации.

Мы изучим этот процесс практически на заданном наборе данных о пассажирах Титаника.

Прежде чем мы начнем, давайте импортируем набор данных, и для этого нам нужно написать:

data=pd.read_csv('Имя набора данных.csv')

данные

[pd представляет библиотеку pandas.]

поскольку данные были импортированы, мы можем видеть процесс анализа данных.

Задавать вопросы:

На этом этапе мы можем задавать вопросы к данному набору данных. Вопрос должен быть базовым и концептуальным, основанным на наборе данных. Теперь из этого набора данных возникают следующие вопросы:

  1. Какие функции будут способствовать моему анализу?
  2. Какие функции не важны для моего анализа?
  3. Нужна ли нам обработка данных?
  4. Какие компоненты имеют сильную корреляцию?
  5. Какая инженерия требуется?

Обработка данных:

Обработка данных — это процесс очистки, реструктуризации беспорядочных и сложных данных для облегчения доступа и анализа набора данных. Процесс обработки данных можно описать тремя способами: 1. Сбор данных, 2. Доступ к данным, 3. Очистка данных.

Сбор данных. Нам необходимо собирать данные из разных источников. Мы получили этот набор данных Титаника от Kaggle.com.

Доступ к данным. В этом процессе мы можем получить описательные сведения о наборе данных. Мы можем знать форму, подробности о данных в наборе данных.

Очистка данных.Очистка данных — это процесс удаления поврежденных, нерелевантных и неполных значений из набора данных для облегчения процесса анализа.

Исследовательский анализ данных:

Исследовательский анализ данных делится на два этапа. 1. Изучение данных, 2. Дополнение данных.

Изучение данных. Это процесс углубленного изучения данных и поиска корреляции, а также ковариации. Кроме того, построение графиков является частью этой части.

Дополнение данных. В этой части мы можем объединить разные фреймы данных в один, удалить выбросы, добавить новые столбцы и т. д.

Заключение по рисунку:

Таким образом, выполнив указанные выше шаги, человек может сделать множество выводов из очищенных данных. Выводы могут быть сделаны с использованием логической статистики или описательной статистики, а также могут использоваться различные алгоритмы машинного обучения. Здесь мы используем алгоритм машинного обучения на наборе данных «Титаник», чтобы предсказать людей, которые могли бы быть спасены.

Результаты общения:

Эта часть также известна как Data Storytelling. В этой части мы должны были представить наш анализ команде специалистов по обработке и анализу данных или руководителю проекта. Презентация может быть сделана, сделав ppt или передав результат руководителю команды.

Вывод:

Мы проделали тяжелую работу. У нас есть результаты, но здесь начинается самое интересное. Хотя все шаги взаимосвязаны, они не являются линейными. Это означает, что вам не нужно делать шаг за шагом, и даже если вы получили результат, вы можете вернуться к любой точке кода, проанализировать и найти ответ на лучший или другой вопрос.