Мы все знаем, что EDA (исследовательский анализ данных) в основном используется энтузиастами машинного обучения . Это способ визуализации, обобщения и получения полезной информации из данных.
Вернемся к фактическому определению. Исследовательский анализ данных относится к критическому процессу выполнения первоначальных исследований данных с целью выявления закономерностей, выявления аномалий, проверки гипотез и проверки предположений с помощью сводной статистики и графических представлений.
Здесь мы поделимся тем, как мы выполнили EDA на наборе данных covid-19, который был взят из мира данных. И EDA выполнялась по этому поводу в googlecolab.
Здесь вы можете найти набор данных.
Какова необходимость выполнения EDA для этих данных и что мы можем получить при выполнении EDA?
Мы все знаем, что EDA — это получение полной информации из данных. При выполнении EDA мы можем получить четкую информацию о наших данных, а также найти любые недостающие значения, присутствующие в наших данных, и выполнить над ними определенные операции, чтобы минимизировать их. При выполнении EDA мы можем получить скрытые закономерности в данных и получить обзор данных. И мы можем знать, как функции коррелируют друг с другом и влияют на данные.
Этапы выполнения EDA
Что ж, для выполнения EDA наши данные должны быть четкими без каких-либо пропущенных значений (NaN), поэтому, когда мы загружаем наши данные, мы должны удалить пропущенные значения и функции, которые не важны. И процесс поиска пропущенных значений и их минимизации известен как очистка данных.
Пример представления наших данных
И после этого мы проверяем, есть ли пропущенные значения в любом из столбцов, используя приведенный ниже код.
# Определяем, есть ли пропущенные значения
df.isna().sum()
и это приводит к этому
Пакеты Python, которые мы используем
Наши данные содержат такие функции, как название штата, количество активных случаев, количество выздоровевших случаев, количество людей, умерших в этом конкретном штате.
Поиск корреляции между функциями наиболее важен для выполнения EDA.
Нахождение корреляции между числом подтвержденных случаев и числом выздоровевших случаев.
Выявление корреляции между числом подтвержденных случаев и числом смертей.
Поиск штатов, наиболее пострадавших от covid-19
df1 = df.sort_values(by=[‘confirmed_cases’],по возрастанию=False)
df1 = df1.head()
sns.barplot(y = df1["state_ut"], x = df1["подтвержденные_случаи"])
# метка для горизонтальной оси
plt.ylabel («Состояния»)
# метка для вертикальной оси
plt.xlabel («случаи»)
Поиск штатов, которые больше всего выздоровели от covid-19
df2 = df.sort_values(by=[‘recovered_cases’],по возрастанию=False)
df2 = df2.head()
sns.barplot(y = df2["state_ut"], x = df2["recovered_cases"])
# метка для горизонтальной оси
plt.ylabel («Состояния»)
# метка для вертикальной оси
plt.xlabel («Восстановленные дела»)
Поиск штатов с наибольшим количеством случаев смерти
df3 = df.sort_values(by=[‘death_cases’],по возрастанию=False)
df3 = df3.head()
sns.barplot(y = df3["state_ut"], x = df3["death_cases"])
# метка для горизонтальной оси
plt.ylabel («Состояния»)
# метка для вертикальной оси
plt.xlabel («Смерти»)
Процент активных дел на 5 основных штатов
plt.figure(figsize=(20,20))
рис1, ax1 = plt.subplots()
метки = df1["state_ut"]
размеры = df1["active_cases"]
ax1.pie(размеры, метки=метки, autopct='%1.1f%%', shadow=True)
# ax1.axis('равно')
plt.show()
Процент выздоровевших случаев на 5 основных штатов
plt.figure(figsize=(20,20))
рис1, ax1 = plt.subplots()
метки = df1["state_ut"]
размеры = df1["recovered_cases"]
ax1.pie(размеры, метки=метки, autopct='%1.1f%%', shadow=True)
# ax1.axis('равно')
plt.show()
Процент случаев смерти на 5 основных штатов
plt.figure(figsize=(20,20))
рис1, ax1 = plt.subplots()
метки = df1["state_ut"]
размеры = df1["death_cases"]
ax1.pie(размеры, метки=метки, autopct='%1.1f%%', shadow=True)
# ax1.axis('равно')
plt.show()
Выводы, которые мы получили, выполнив EDA для данных:
Выполняя различные визуализации данных, мы узнали, что
В Махараштре больше людей, страдающих от covid-19, больше людей выздоровели от него, а также больше людей умерло от него.
Ниже приведены штаты с более активными случаями, выздоровевшими случаями и случаями смерти: Махараштра, Андхра-Прадеш, Тамилнад, Карнатака, Уттар-Прадеш.
Мы можем четко видеть корреляцию между выздоровевшими и подтвержденными случаями, т. е. если число подтвержденных случаев увеличивается, то количество выздоровевших также увеличивается.
Отсюда видно, что эти штаты Махараштра, Андхра-Прадеш, Тамилнад, Карнатака, Уттар-Прадеш находятся в опасной зоне.