Анализ данных — это метод оценки и анализа набора данных с использованием логических и аналитических рассуждений, при этом проверяется каждый из компонентов этого набора данных. Это первый шаг в любой работе, связанной с данными.
Процесс анализа данных
Анализ данных состоит из 5 основных этапов: 1. Задавать вопросы. 2. Обработка данных. 3. Исследовательский анализ данных. 4. Подведение итогов. 5. Результаты коммуникации.
Мы изучим этот процесс практически на заданном наборе данных о пассажирах Титаника.
Прежде чем мы начнем, давайте импортируем набор данных, и для этого нам нужно написать:
data=pd.read_csv('Имя набора данных.csv')
данные
[pd представляет библиотеку pandas.]
поскольку данные были импортированы, мы можем видеть процесс анализа данных.
Задавать вопросы:
На этом этапе мы можем задавать вопросы к данному набору данных. Вопрос должен быть базовым и концептуальным, основанным на наборе данных. Теперь из этого набора данных возникают следующие вопросы:
- Какие функции будут способствовать моему анализу?
- Какие функции не важны для моего анализа?
- Нужна ли нам обработка данных?
- Какие компоненты имеют сильную корреляцию?
- Какая инженерия требуется?
Обработка данных:
Обработка данных — это процесс очистки, реструктуризации беспорядочных и сложных данных для облегчения доступа и анализа набора данных. Процесс обработки данных можно описать тремя способами: 1. Сбор данных, 2. Доступ к данным, 3. Очистка данных.
Сбор данных. Нам необходимо собирать данные из разных источников. Мы получили этот набор данных Титаника от Kaggle.com.
Доступ к данным. В этом процессе мы можем получить описательные сведения о наборе данных. Мы можем знать форму, подробности о данных в наборе данных.
Очистка данных.Очистка данных — это процесс удаления поврежденных, нерелевантных и неполных значений из набора данных для облегчения процесса анализа.
Исследовательский анализ данных:
Исследовательский анализ данных делится на два этапа. 1. Изучение данных, 2. Дополнение данных.
Изучение данных. Это процесс углубленного изучения данных и поиска корреляции, а также ковариации. Кроме того, построение графиков является частью этой части.
Дополнение данных. В этой части мы можем объединить разные фреймы данных в один, удалить выбросы, добавить новые столбцы и т. д.
Заключение по рисунку:
Таким образом, выполнив указанные выше шаги, человек может сделать множество выводов из очищенных данных. Выводы могут быть сделаны с использованием логической статистики или описательной статистики, а также могут использоваться различные алгоритмы машинного обучения. Здесь мы используем алгоритм машинного обучения на наборе данных «Титаник», чтобы предсказать людей, которые могли бы быть спасены.
Результаты общения:
Эта часть также известна как Data Storytelling. В этой части мы должны были представить наш анализ команде специалистов по обработке и анализу данных или руководителю проекта. Презентация может быть сделана, сделав ppt или передав результат руководителю команды.
Вывод:
Мы проделали тяжелую работу. У нас есть результаты, но здесь начинается самое интересное. Хотя все шаги взаимосвязаны, они не являются линейными. Это означает, что вам не нужно делать шаг за шагом, и даже если вы получили результат, вы можете вернуться к любой точке кода, проанализировать и найти ответ на лучший или другой вопрос.