Анализ данных И процесс…

Анализ данных — это метод оценки и анализа набора данных с использованием логических и аналитических рассуждений, при этом проверяется каждый из компонентов этого набора данных. Это первый шаг в любой работе, связанной с данными.

Процесс анализа данных

Анализ данных состоит из 5 основных этапов: 1. Задавать вопросы. 2. Обработка данных. 3. Исследовательский анализ данных. 4. Подведение итогов. 5. Результаты коммуникации.

Мы изучим этот процесс практически на заданном наборе данных о пассажирах Титаника.

Прежде чем мы начнем, давайте импортируем набор данных, и для этого нам нужно написать:

data=pd.read_csv('Имя набора данных.csv')

данные

[pd представляет библиотеку pandas.]

поскольку данные были импортированы, мы можем видеть процесс анализа данных.

Задавать вопросы:

На этом этапе мы можем задавать вопросы к данному набору данных. Вопрос должен быть базовым и концептуальным, основанным на наборе данных. Теперь из этого набора данных возникают следующие вопросы:

Какие функции будут способствовать моему анализу?
Какие функции не важны для моего анализа?
Нужна ли нам обработка данных?
Какие компоненты имеют сильную корреляцию?
Какая инженерия требуется?

Обработка данных:

Обработка данных — это процесс очистки, реструктуризации беспорядочных и сложных данных для облегчения доступа и анализа набора данных. Процесс обработки данных можно описать тремя способами: 1. Сбор данных, 2. Доступ к данным, 3. Очистка данных.

Сбор данных. Нам необходимо собирать данные из разных источников. Мы получили этот набор данных Титаника от Kaggle.com.

Доступ к данным. В этом процессе мы можем получить описательные сведения о наборе данных. Мы можем знать форму, подробности о данных в наборе данных.

Очистка данных.Очистка данных — это процесс удаления поврежденных, нерелевантных и неполных значений из набора данных для облегчения процесса анализа.

Исследовательский анализ данных:

Исследовательский анализ данных делится на два этапа. 1. Изучение данных, 2. Дополнение данных.

Изучение данных. Это процесс углубленного изучения данных и поиска корреляции, а также ковариации. Кроме того, построение графиков является частью этой части.

Дополнение данных. В этой части мы можем объединить разные фреймы данных в один, удалить выбросы, добавить новые столбцы и т. д.

Заключение по рисунку:

Таким образом, выполнив указанные выше шаги, человек может сделать множество выводов из очищенных данных. Выводы могут быть сделаны с использованием логической статистики или описательной статистики, а также могут использоваться различные алгоритмы машинного обучения. Здесь мы используем алгоритм машинного обучения на наборе данных «Титаник», чтобы предсказать людей, которые могли бы быть спасены.

Результаты общения:

Эта часть также известна как Data Storytelling. В этой части мы должны были представить наш анализ команде специалистов по обработке и анализу данных или руководителю проекта. Презентация может быть сделана, сделав ppt или передав результат руководителю команды.

Вывод:

Мы проделали тяжелую работу. У нас есть результаты, но здесь начинается самое интересное. Хотя все шаги взаимосвязаны, они не являются линейными. Это означает, что вам не нужно делать шаг за шагом, и даже если вы получили результат, вы можете вернуться к любой точке кода, проанализировать и найти ответ на лучший или другой вопрос.