Исследовательский анализ данных

Мы все знаем, что EDA (исследовательский анализ данных) в основном используется энтузиастами машинного обучения . Это способ визуализации, обобщения и получения полезной информации из данных.

Вернемся к фактическому определению. Исследовательский анализ данных относится к критическому процессу выполнения первоначальных исследований данных с целью выявления закономерностей, выявления аномалий, проверки гипотез и проверки предположений с помощью сводной статистики и графических представлений.

Здесь мы поделимся тем, как мы выполнили EDA на наборе данных covid-19, который был взят из мира данных. И EDA выполнялась по этому поводу в googlecolab.

Здесь вы можете найти набор данных.

Какова необходимость выполнения EDA для этих данных и что мы можем получить при выполнении EDA?

Мы все знаем, что EDA — это получение полной информации из данных. При выполнении EDA мы можем получить четкую информацию о наших данных, а также найти любые недостающие значения, присутствующие в наших данных, и выполнить над ними определенные операции, чтобы минимизировать их. При выполнении EDA мы можем получить скрытые закономерности в данных и получить обзор данных. И мы можем знать, как функции коррелируют друг с другом и влияют на данные.

Этапы выполнения EDA

Что ж, для выполнения EDA наши данные должны быть четкими без каких-либо пропущенных значений (NaN), поэтому, когда мы загружаем наши данные, мы должны удалить пропущенные значения и функции, которые не важны. И процесс поиска пропущенных значений и их минимизации известен как очистка данных.

Пример представления наших данных

И после этого мы проверяем, есть ли пропущенные значения в любом из столбцов, используя приведенный ниже код.

# Определяем, есть ли пропущенные значения

df.isna().sum()

и это приводит к этому

Пакеты Python, которые мы используем

Наши данные содержат такие функции, как название штата, количество активных случаев, количество выздоровевших случаев, количество людей, умерших в этом конкретном штате.

Поиск корреляции между функциями наиболее важен для выполнения EDA.

Нахождение корреляции между числом подтвержденных случаев и числом выздоровевших случаев.

Выявление корреляции между числом подтвержденных случаев и числом смертей.

Поиск штатов, наиболее пострадавших от covid-19

df1 = df.sort_values(by=[‘confirmed_cases’],по возрастанию=False)

df1 = df1.head()

sns.barplot(y = df1["state_ut"], x = df1["подтвержденные_случаи"])

# метка для горизонтальной оси

plt.ylabel («Состояния»)

# метка для вертикальной оси

plt.xlabel («случаи»)

Поиск штатов, которые больше всего выздоровели от covid-19

df2 = df.sort_values(by=[‘recovered_cases’],по возрастанию=False)

df2 = df2.head()

sns.barplot(y = df2["state_ut"], x = df2["recovered_cases"])

# метка для горизонтальной оси

plt.ylabel («Состояния»)

# метка для вертикальной оси

plt.xlabel («Восстановленные дела»)

Поиск штатов с наибольшим количеством случаев смерти

df3 = df.sort_values(by=[‘death_cases’],по возрастанию=False)

df3 = df3.head()

sns.barplot(y = df3["state_ut"], x = df3["death_cases"])

# метка для горизонтальной оси

plt.ylabel («Состояния»)

# метка для вертикальной оси

plt.xlabel («Смерти»)

Процент активных дел на 5 основных штатов

plt.figure(figsize=(20,20))

рис1, ax1 = plt.subplots()

метки = df1["state_ut"]

размеры = df1["active_cases"]

ax1.pie(размеры, метки=метки, autopct='%1.1f%%', shadow=True)

# ax1.axis('равно')

plt.show()

Процент выздоровевших случаев на 5 основных штатов

plt.figure(figsize=(20,20))

рис1, ax1 = plt.subplots()

метки = df1["state_ut"]

размеры = df1["recovered_cases"]

ax1.pie(размеры, метки=метки, autopct='%1.1f%%', shadow=True)

# ax1.axis('равно')

plt.show()

Процент случаев смерти на 5 основных штатов

plt.figure(figsize=(20,20))

рис1, ax1 = plt.subplots()

метки = df1["state_ut"]

размеры = df1["death_cases"]

ax1.pie(размеры, метки=метки, autopct='%1.1f%%', shadow=True)

# ax1.axis('равно')

plt.show()

Выводы, которые мы получили, выполнив EDA для данных:

Выполняя различные визуализации данных, мы узнали, что

В Махараштре больше людей, страдающих от covid-19, больше людей выздоровели от него, а также больше людей умерло от него.

Ниже приведены штаты с более активными случаями, выздоровевшими случаями и случаями смерти: Махараштра, Андхра-Прадеш, Тамилнад, Карнатака, Уттар-Прадеш.

Мы можем четко видеть корреляцию между выздоровевшими и подтвержденными случаями, т. е. если число подтвержденных случаев увеличивается, то количество выздоровевших также увеличивается.

Отсюда видно, что эти штаты Махараштра, Андхра-Прадеш, Тамилнад, Карнатака, Уттар-Прадеш находятся в опасной зоне.

Исследовательский анализ данных

Вопросы по теме