Pandas – это пакет Python с открытым исходным кодом, который чаще всего используется для обработки и анализа данных и задач машинного обучения. Pandas – это библиотека Python, используемая для работы с наборами данных. Он имеет функции для анализа, очистки, изучения и манипулирования данными. Название «Pandas» имеет отсылку как к «Panel Data», так и к «Python Data Analysis» и было создано Уэсом МакКинни в 2008 году.
Если вы хотите использовать pandas, сначала установите пакет с помощью приведенной ниже команды в cmd —
pip install pandas
1. Датафрейм -
В pandas dataframe используется для хранения данных в строке и столбцах. Двумерные, изменяемые по размеру, потенциально гетерогенные табличные данные DataFrame.
пример:
# first import the package import pandas as pd # create dict outside and then pass in dataframe function dict1={"class":['A',"B","C"],"Total":[20,40,50]} df=pd.DataFrame(dict1) print(df)
2. Серия-
В серии pandas для хранения используется одномерный ndarray с метками осей.
пример-
# create 1D list and pass into Series pandas function list1=[2,4,6,8,10] # call series function from pandas package pd.Series(list1)
Чтение данных из разных форматов файлов -
если данные хранятся в другом формате файла, прочитайте файлы с помощью пакета pandas.
ниже показаны только связанные важные файлы, которые в основном используются на практике. Если вы хотите узнать больше, обратитесь к документации pandas.
# import package import pandas as pd # .csv file pd.read_csv(file_path) # excel file format pd.read_excel(file_path) # json file format pd.read_json() # hdf file format pd.read_hdf() # parquet file format pd.read_parquet()
Информация о данных
- Проверьте форму данных.
Используя .shape, верните количество строк и столбцов, присутствующих в фрейме данных.
# df is dataframe and use shape over the dataframe return (#row,#column) df.shape >> (3, 2)
2. найти имя столбца, индекс, типы данных фрейма данных
# .columns return the name of all columns df.columns # return the range of index df.index # return the dtypes of each columns df.dtypes
3. Проверьте информацию о фрейме данных.
Информационная функция в пандах используется для определения типов данных, # ненулевого подсчета для каждого атрибута столбца.
# .info on dataframe return the columns, not null count and Dtype of each attribute df.info() <class 'pandas.core.frame.DataFrame'> RangeIndex: 3 entries, 0 to 2 Data columns (total 2 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 class 3 non-null object 1 Total 3 non-null int64 dtypes: int64(1), object(1) memory usage: 176.0+ bytes
4. Проверьте описательную статистику -
используя функцию описания, мы узнаем количество записей, среднее, стандартное, максимальное, минимальное, 25%, 50%, 75% значений. Это помогает первичному анализу данных в отношении выбросов, распределения данных и т. д. Важное примечание: это применимо только к числовым столбцам.
# .describe() function call over the dataframe df.describe()
Доступ к кадру данных
- Извлечение первых записей -
с помощью .head(# rows) доступ к # верхних строк. По умолчанию 5 # строк.
# access only top records df.head()
2. Извлечь нижние записи -
с помощью .tail(# rows) получить доступ к последнему количеству строк. По умолчанию 5 # строк.
3 access only last # of rows df.tail()
3. Доступ к строкам и столбцам -
Извлечение определенных строк и столбцов из данных с помощью функций .iloc и .loc.
1. В .iloc используется индексный номер строк и столбцов.
df. iloc[индекс строк,индекс столбца]
# all rows and columns df.iloc[:,:] # 2 to 5 index rows and all columns df.iloc[2:5,:] # 2 to 5 index rows and 2 to 5 index columns df.iloc[2:5,2:5] # extract particular index rows and columns df.iloc[[2,5,6],[3,7,8]]
2. В .loc используется название меток строк и столбцов.
df.loc[метка строки, метка столбца]
df.loc[[1,2,3],['col1','col2']]
Как обнаружить и обработать пропущенные значения -
В кадре данных найдите количество отсутствующих значений, используя приведенные ниже функции.
1. Определите количество отсутствующих значений -
# detect the missing values then return True df.isna() df.isnull() # detect count the missing values df.isna().sum() df.isnull().sum() # detect % of missing value per columns df.isna().mean() * 100
2. Обработать отсутствующее значение -
# fill the missing value with respect feature df.fillna() # drop the missing value rows df.dropna()
Переименовать имена столбцов
Чтобы переименовать имена столбцов Pandas DataFrame, вы можете использовать метод rename()
.
# Rename the columns (method 1) df = df.rename(columns={'A': 'New_A', 'B': 'New_B'}) # Rename the columns (method 2) df.columns = ['New_A', 'New_B']
Как заменить значение в Pandas DataFrame в Python?
Чтобы заменить значение в Pandas DataFrame, вы можете использовать метод replace()
.
Вот пример:
В этом примере мы сначала создаем образец DataFrame со столбцами с именами «A» и «B». Затем мы используем метод replace()
, чтобы заменить значение 2 на 99 в столбце «A». Наконец, мы отображаем обновленный DataFrame с помощью функции print()
.
import pandas as pd # Create a sample dataframe df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}) # Replace the value 2 with 99 in column 'A' df['A'] = df['A'].replace(2, 99) # Display the updated dataframe print(df)
Вы также можете заменить сразу несколько значений, используя словарь значений замены, например:
import pandas as pd # Create a sample dataframe df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}) # Replace values 1 and 2 with 99 and 88, respectively, in column 'A' df['A'] = df['A'].replace({1: 99, 2: 88}) # Display the updated dataframe print(df)
В этом примере мы используем словарь, чтобы указать, что значения 1 и 2 в столбце «A» должны быть заменены на 99 и 88 соответственно.
Что такое функция .apply()
в Pandas DataFrame и как ее использовать в Python?
В Pandas функция .apply()
используется для применения функции к строкам или столбцам DataFrame. Его можно использовать для выполнения любой пользовательской или встроенной функции в DataFrame.
Вот пример:
import pandas as pd # Create a sample dataframe df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}) # Define a function to add 1 to a value def add_one(x): return x + 1 # Apply the function to column 'A' using .apply() df['A'] = df['A'].apply(add_one) # Display the updated dataframe print(df)
В этом примере мы сначала создаем образец DataFrame со столбцами с именами «A» и «B». Затем мы определяем простую функцию add_one()
, которая добавляет 1 к заданному значению. Мы используем функцию .apply()
, чтобы применить эту функцию к столбцу «A» DataFrame, фактически добавляя 1 к каждому значению в этом столбце. Наконец, мы отображаем обновленный DataFrame, используя функцию print()
.
Что такое сводная таблица в Pandas DataFrame и как ее создать в Python?
В Pandas сводная таблица — это способ суммировать и агрегировать данные в DataFrame, группируя и перестраивая их в новую таблицу с более значимым макетом. Функциональность сводной таблицы позволяет пользователям создавать многомерные сводки данных DataFrame.
Вот пример:
import pandas as pd # Create a sample dataframe df = pd.DataFrame({'City': ['New York', 'New York', 'Chicago', 'Chicago', 'Houston', 'Houston'], 'Year': [2019, 2020, 2019, 2020, 2019, 2020], 'Revenue': [100, 200, 150, 250, 120, 180]}) # Create a pivot table by grouping the data by 'City' and 'Year' and aggregating 'Revenue' pivot_table = pd.pivot_table(df, values='Revenue', index=['City'], columns=['Year'], aggfunc=sum) # Display the pivot table print(pivot_table)
В этом примере мы сначала создаем образец DataFrame со столбцами с именами «Город», «Год» и «Доход». Затем мы создаем сводную таблицу, группируя данные по «Городу» и «Году» и объединяя значения «Доход» с помощью функции sum
. Полученная сводная таблица показывает общий доход для каждой комбинации города и года.
Вы можете настроить сводную таблицу, добавив дополнительные аргументы в функцию pd.pivot_table()
, например, указав другую функцию агрегирования или включив несколько столбцов значений.
Сводные таблицы — это мощный инструмент для обобщения и визуализации больших наборов данных, позволяющий пользователям быстро анализировать и получать представление о своих данных.
Что такое кросс-таблица в Pandas DataFrame и как ее создать в Python?
В Pandas кросс-таблица (кросс-таблица) — это способ суммирования и агрегирования данных в DataFrame путем вычисления частотной таблицы взаимосвязей между двумя или более категориальными переменными. В результирующей таблице отображается частота встречаемости различных комбинаций переменных.
Вот пример:
import pandas as pd # Create a sample dataframe df = pd.DataFrame({'City': ['New York', 'New York', 'Chicago', 'Chicago', 'Houston', 'Houston'], 'Year': [2019, 2020, 2019, 2020, 2019, 2020], 'Revenue': [100, 200, 150, 250, 120, 180]}) # Create a crosstab by computing the frequency of occurrence of 'City' and 'Year' cross_tab = pd.crosstab(index=df['City'], columns=df['Year']) # Display the crosstab print(cross_tab)
В этом примере мы сначала создаем образец DataFrame со столбцами с именами «Город», «Год» и «Доход». Затем мы создаем кросс-таблицу, вычисляя частоту появления переменных «Город» и «Год» с помощью функции pd.crosstab()
. Полученная кросс-таблица показывает, сколько раз каждая комбинация города и года встречается в DataFrame.
Вы также можете настроить кросс-таблицу, добавив дополнительные аргументы в функцию pd.crosstab()
, например, указав другую функцию агрегирования, включая поля строк и столбцов, или вычислив проценты вместо количества.
Кросс-таблицы — это полезный инструмент для анализа и визуализации категорийных данных, позволяющий пользователям быстро выявлять закономерности и взаимосвязи в своих данных.