Освоение анализа данных с помощью Pandas DataFrame: подробное руководство

Pandas – это пакет Python с открытым исходным кодом, который чаще всего используется для обработки и анализа данных и задач машинного обучения. Pandas – это библиотека Python, используемая для работы с наборами данных. Он имеет функции для анализа, очистки, изучения и манипулирования данными. Название «Pandas» имеет отсылку как к «Panel Data», так и к «Python Data Analysis» и было создано Уэсом МакКинни в 2008 году.
Если вы хотите использовать pandas, сначала установите пакет с помощью приведенной ниже команды в cmd —

pip install pandas

1. Датафрейм -

В pandas dataframe используется для хранения данных в строке и столбцах. Двумерные, изменяемые по размеру, потенциально гетерогенные табличные данные DataFrame.
пример:

# first import the package 
import pandas as pd
# create dict outside and then pass in dataframe function
dict1={"class":['A',"B","C"],"Total":[20,40,50]}
df=pd.DataFrame(dict1)
print(df)

2. Серия-

В серии pandas для хранения используется одномерный ndarray с метками осей.
пример-

# create 1D list and pass into Series pandas function
list1=[2,4,6,8,10]
# call series function from pandas package
pd.Series(list1)

Чтение данных из разных форматов файлов -

если данные хранятся в другом формате файла, прочитайте файлы с помощью пакета pandas.

ниже показаны только связанные важные файлы, которые в основном используются на практике. Если вы хотите узнать больше, обратитесь к документации pandas.

# import package
import pandas as pd
# .csv file
pd.read_csv(file_path)
# excel file format
pd.read_excel(file_path)
# json file format
pd.read_json()
# hdf file format
pd.read_hdf()
# parquet file format 
pd.read_parquet()

Информация о данных

Проверьте форму данных.
Используя .shape, верните количество строк и столбцов, присутствующих в фрейме данных.

# df is dataframe and use shape over the dataframe return (#row,#column)
df.shape

>> (3, 2)

2. найти имя столбца, индекс, типы данных фрейма данных

# .columns return the name of all columns
df.columns
# return the range of index
df.index
# return the dtypes of each columns
df.dtypes

3. Проверьте информацию о фрейме данных.
Информационная функция в пандах используется для определения типов данных, # ненулевого подсчета для каждого атрибута столбца.

# .info on dataframe return the columns, not null count and Dtype of each attribute
df.info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   class   3 non-null      object
 1   Total   3 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 176.0+ bytes

4. Проверьте описательную статистику -
используя функцию описания, мы узнаем количество записей, среднее, стандартное, максимальное, минимальное, 25%, 50%, 75% значений. Это помогает первичному анализу данных в отношении выбросов, распределения данных и т. д. Важное примечание: это применимо только к числовым столбцам.

# .describe() function call over the dataframe
df.describe()

Доступ к кадру данных

Извлечение первых записей -
с помощью .head(# rows) доступ к # верхних строк. По умолчанию 5 # строк.

# access only top records
df.head()

2. Извлечь нижние записи -
с помощью .tail(# rows) получить доступ к последнему количеству строк. По умолчанию 5 # строк.

3 access only last # of rows
df.tail()

3. Доступ к строкам и столбцам -
Извлечение определенных строк и столбцов из данных с помощью функций .iloc и .loc.
1. В .iloc используется индексный номер строк и столбцов.
df. iloc[индекс строк,индекс столбца]

# all rows and columns
df.iloc[:,:]

# 2 to 5 index rows and all columns
df.iloc[2:5,:]

# 2 to 5 index rows and 2 to 5 index columns
df.iloc[2:5,2:5]

# extract particular index rows and columns
df.iloc[[2,5,6],[3,7,8]]

2. В .loc используется название меток строк и столбцов.
df.loc[метка строки, метка столбца]

df.loc[[1,2,3],['col1','col2']]

Как обнаружить и обработать пропущенные значения -

В кадре данных найдите количество отсутствующих значений, используя приведенные ниже функции.
1. Определите количество отсутствующих значений -

# detect the missing values then return True
df.isna()
df.isnull()

# detect count the missing values
df.isna().sum()
df.isnull().sum()


# detect % of missing value per columns
df.isna().mean() * 100

2. Обработать отсутствующее значение -

# fill the missing value with respect feature
df.fillna()

# drop the missing value rows
df.dropna()

Переименовать имена столбцов

Чтобы переименовать имена столбцов Pandas DataFrame, вы можете использовать метод rename().

# Rename the columns (method 1)
df = df.rename(columns={'A': 'New_A', 'B': 'New_B'})

# Rename the columns (method 2)
df.columns = ['New_A', 'New_B']

Как заменить значение в Pandas DataFrame в Python?

Чтобы заменить значение в Pandas DataFrame, вы можете использовать метод replace().

Вот пример:
В этом примере мы сначала создаем образец DataFrame со столбцами с именами «A» и «B». Затем мы используем метод replace(), чтобы заменить значение 2 на 99 в столбце «A». Наконец, мы отображаем обновленный DataFrame с помощью функции print().

import pandas as pd

# Create a sample dataframe
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})

# Replace the value 2 with 99 in column 'A'
df['A'] = df['A'].replace(2, 99)

# Display the updated dataframe
print(df)

Вы также можете заменить сразу несколько значений, используя словарь значений замены, например:

import pandas as pd

# Create a sample dataframe
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})

# Replace values 1 and 2 with 99 and 88, respectively, in column 'A'
df['A'] = df['A'].replace({1: 99, 2: 88})

# Display the updated dataframe
print(df)

В этом примере мы используем словарь, чтобы указать, что значения 1 и 2 в столбце «A» должны быть заменены на 99 и 88 соответственно.

Что такое функция `.apply()` в Pandas DataFrame и как ее использовать в Python?

В Pandas функция .apply() используется для применения функции к строкам или столбцам DataFrame. Его можно использовать для выполнения любой пользовательской или встроенной функции в DataFrame.

Вот пример:

import pandas as pd

# Create a sample dataframe
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})

# Define a function to add 1 to a value
def add_one(x):
    return x + 1

# Apply the function to column 'A' using .apply()
df['A'] = df['A'].apply(add_one)

# Display the updated dataframe
print(df)

В этом примере мы сначала создаем образец DataFrame со столбцами с именами «A» и «B». Затем мы определяем простую функцию add_one(), которая добавляет 1 к заданному значению. Мы используем функцию .apply(), чтобы применить эту функцию к столбцу «A» DataFrame, фактически добавляя 1 к каждому значению в этом столбце. Наконец, мы отображаем обновленный DataFrame, используя функцию print().

Что такое сводная таблица в Pandas DataFrame и как ее создать в Python?

В Pandas сводная таблица — это способ суммировать и агрегировать данные в DataFrame, группируя и перестраивая их в новую таблицу с более значимым макетом. Функциональность сводной таблицы позволяет пользователям создавать многомерные сводки данных DataFrame.

Вот пример:

import pandas as pd

# Create a sample dataframe
df = pd.DataFrame({'City': ['New York', 'New York', 'Chicago', 'Chicago', 'Houston', 'Houston'],
                   'Year': [2019, 2020, 2019, 2020, 2019, 2020],
                   'Revenue': [100, 200, 150, 250, 120, 180]})

# Create a pivot table by grouping the data by 'City' and 'Year' and aggregating 'Revenue'
pivot_table = pd.pivot_table(df, values='Revenue', index=['City'], columns=['Year'], aggfunc=sum)

# Display the pivot table
print(pivot_table)

В этом примере мы сначала создаем образец DataFrame со столбцами с именами «Город», «Год» и «Доход». Затем мы создаем сводную таблицу, группируя данные по «Городу» и «Году» и объединяя значения «Доход» с помощью функции sum. Полученная сводная таблица показывает общий доход для каждой комбинации города и года.

Вы можете настроить сводную таблицу, добавив дополнительные аргументы в функцию pd.pivot_table(), например, указав другую функцию агрегирования или включив несколько столбцов значений.

Сводные таблицы — это мощный инструмент для обобщения и визуализации больших наборов данных, позволяющий пользователям быстро анализировать и получать представление о своих данных.

Что такое кросс-таблица в Pandas DataFrame и как ее создать в Python?

В Pandas кросс-таблица (кросс-таблица) — это способ суммирования и агрегирования данных в DataFrame путем вычисления частотной таблицы взаимосвязей между двумя или более категориальными переменными. В результирующей таблице отображается частота встречаемости различных комбинаций переменных.

Вот пример:

import pandas as pd

# Create a sample dataframe
df = pd.DataFrame({'City': ['New York', 'New York', 'Chicago', 'Chicago', 'Houston', 'Houston'],
                   'Year': [2019, 2020, 2019, 2020, 2019, 2020],
                   'Revenue': [100, 200, 150, 250, 120, 180]})

# Create a crosstab by computing the frequency of occurrence of 'City' and 'Year'
cross_tab = pd.crosstab(index=df['City'], columns=df['Year'])

# Display the crosstab
print(cross_tab)

В этом примере мы сначала создаем образец DataFrame со столбцами с именами «Город», «Год» и «Доход». Затем мы создаем кросс-таблицу, вычисляя частоту появления переменных «Город» и «Год» с помощью функции pd.crosstab(). Полученная кросс-таблица показывает, сколько раз каждая комбинация города и года встречается в DataFrame.

Вы также можете настроить кросс-таблицу, добавив дополнительные аргументы в функцию pd.crosstab(), например, указав другую функцию агрегирования, включая поля строк и столбцов, или вычислив проценты вместо количества.

Кросс-таблицы — это полезный инструмент для анализа и визуализации категорийных данных, позволяющий пользователям быстро выявлять закономерности и взаимосвязи в своих данных.

Освоение анализа данных с помощью Pandas DataFrame: подробное руководство

1. Датафрейм -

2. Серия-

Чтение данных из разных форматов файлов -

Информация о данных

Доступ к кадру данных

Как обнаружить и обработать пропущенные значения -

Переименовать имена столбцов

Как заменить значение в Pandas DataFrame в Python?

Что такое функция .apply() в Pandas DataFrame и как ее использовать в Python?

Что такое сводная таблица в Pandas DataFrame и как ее создать в Python?

Что такое кросс-таблица в Pandas DataFrame и как ее создать в Python?

Вопросы по теме

Что такое функция `.apply()` в Pandas DataFrame и как ее использовать в Python?