Усильте свой навык Pandas с помощью этого практического руководства

Pandas - незаменимый пакет для инженеров по обработке данных, аналитиков данных и специалистов по обработке данных. Pandas - это простая в использовании библиотека пакетов Python для обработки и анализа данных. Если вы уже знакомы с SQL или даже с Ms Excel, вам не составит труда привыкнуть к функциям в пандах.

Pandas имеет часто используемый формат данных, называемый DataFrame. Pandas DataFrame - это 2D-структура данных. Данные организованы в виде таблицы, содержащей строки и столбцы, что упрощает выполнение запросов. Строки представляют записи данных, а столбцы представляют поля.

Я не буду подробно объяснять, что такое панды, потому что это много обсуждалось. Приступим к кодированию

Набор данных

Я создал простые данные для этого поста, чтобы облегчить понимание Pandas. Данные взяты из Центрального статистического бюро Индонезии (bps.go.id). Набор данных содержит некоторую информацию о провинциях Индонезии в 2015 году. Этот набор данных состоит из 10 столбцов:

Этот набор данных можно скачать на github.

Импорт пакета pandas

Прежде чем мы сможем использовать pandas, нам нужно импортировать пакет и дать ему более короткое имя, а именно pd

Используя свойство __version __, мы можем узнать, какую версию Pandas мы используем. В моем случае я использую Pandas 1.1.0

Загрузка файла .csv в фрейм данных Pandas

Используемый набор данных data-Province-2015.cvs описан ранее и может быть найден по адресу github.com/project303/dataset. Этот набор данных представляет собой формат текстового файла с табуляцией в качестве разделителя между столбцами. Имена столбцов включены в файл набора данных и указаны в первой строке.

Чтобы прочитать его как Pandas DataFrame, мы можем просто использовать команду read_csv ().

Если файл data-Province-2015.cvs был загружен и находится на вашем локальном компьютере, тогда переменную url можно изменить на каталог, в котором находится файл, для пример url = ”c: \ dataset \ data-Province-2015.cvs”

Просмотреть образец данных

После успешной загрузки в Pandas DataFrame нам нужно посмотреть на пример данных. Для этого мы собираемся использовать функцию head () для отображения первых 5 записей DataFrame.

Он показывает, что данные могут быть правильно загружены в DataFrame, а также имена столбцов.

Функцию head () можно параметризовать количеством отображаемых DataFrame. Допустим, мы отобразим первые 10 записей из DataFrame.

Pandas также предоставляет функцию для отображения последних n записей из DataFrame. Просто используйте функцию tail (). Если количество записей не указано, по умолчанию будет отображаться 5 записей.

Функцию sample () можно использовать, если мы хотим отображать случайные записи из DataFrame. Предположим, мы хотим отобразить 10 случайных записей:

Чтобы отобразить все записи, которые у нас есть в DataFrame, просто введите переменную DataFrame:

Подсчитать количество записей

Чтобы получить информацию о количестве записей в DataFrame, мы можем использовать функцию count ()

Функция count () возвращает имя столбца и номер строки. Как показано, все столбцы имеют одинаковое количество записей. Можно сказать, что количество записей 34. Это также означает, что нет нулевых значений.

Другой способ подсчитать количество записей - использовать свойство shape.

Информация о структуре данных

Как описано ранее, Pandas DataFrame - это двухмерные данные. Свойство shape можно использовать для определения размеров DataFrame.

Из значений свойства shape, показанных выше, DataFrame имеет 34 записи и 10 столбцов.

Еще одно свойство, которое можно использовать для отображения структуры DataFrame, - dtypes.

Более подробную информацию о структуре можно отобразить с помощью info ()

Статистическая информация

Статистическая информация для каждого столбца, такая как минимальное значение, максимальное значение, стандартное отклонение, среднее значение и т. Д., Может быть отображена с помощью следующих команд.

Выбор столбца

Мы можем отобразить выбранный столбец, указав имена столбцов в списке

Фильтрация данных

Одной из важных частей, используемых при подготовке и анализе данных, является фильтрация, то есть выбор данных по определенным критериям. Это также называется подмножеством данных.

Для тех, кто знаком с SQL, это часть оператора WHERE.

Например, мы хотим отобразить данные для острова, равного «Суматере».

Мы можем комбинировать несколько условий, используя логический оператор И («&») и логический оператор ИЛИ («|»), чтобы выбрать строки с более чем одним критерием.

Например, мы хотим получить всю провинцию, расположенную на острове Суматера, и уровень безработицы менее 5

Может быть написано по-разному, но имеет то же значение

В приведенном выше примере у него два критерия
1. остров = 'Суматра'
2. безработица ‹5
Использование логический оператор И («&») выше, извлекайте данные, соответствующие обоим критериям.
Если вы хотите получить данные, соответствующие только одному критерию, вы можете использовать оператор логического ИЛИ («|»)

Функцию isin () можно использовать для фильтрации столбца, если значение указано в списке. Например, мы хотим показать провинции на острове Суматра и Калимантан, в которых уровень безработицы меньше 5.

Мы можем отменить условие, используя символ тильды ~, представляющий оператор NOT.

Результат этого утверждения показывает все данные, которые НЕ на Суматере и Калимантане, но имеют уровень безработицы менее 5.

Если выражение условия слишком сложное, рекомендуется создать новый DataFrame, чтобы упростить остальной код.

Сортировка данных

Функция sort_values ​​() используется для сортировки данных по указанному столбцу, начиная с наименьшего значения. Следующая команда отображает данные, отсортированные по столбцу количество осадков.

Чтобы отсортировать данные, начиная с наибольшего значения, параметру по возрастанию присваивается значение False.

Если мы хотим отсортировать данные, используя более одного столбца, нам нужно указать список имен столбцов

В отображаемых данных показано, что строки 3 и 4 в столбце rainy_day не отсортированы соответствующим образом, поскольку они были отсортированы на основе столбца осадков.

Если мы хотим отсортировать данные, но у нас есть разные методы для каждого столбца, необходимо указать параметр по возрастанию. Значение 0 сначала отсортирует наибольшее значение. Значение 1 сначала будет наименьшим.

Перед тем, как ты уйдешь

Молодец! Вы закончили изучение ЧАСТИ 1 Практического руководства Pandas. Надеюсь, вы понимаете, насколько просты Pandas. Вы узнали, как читать данные, получать информацию о структуре, фильтровать и сортировать данные.

В ЧАСТИ 2 закончим все, что нужно знать о пандах. Вы узнаете, как суммировать, группировать данные, преобразовывать столбцы и объединять со справочными данными.

Блокнот в этом посте доступен в моем github.
Пожалуйста, подключитесь к LinkedIn, если хотите поболтать!
Наслаждайтесь обучением и получайте удовольствие от данных!