Усильте свой навык Pandas с помощью этого практического руководства
Pandas - незаменимый пакет для инженеров по обработке данных, аналитиков данных и специалистов по обработке данных. Pandas - это простая в использовании библиотека пакетов Python для обработки и анализа данных. Если вы уже знакомы с SQL или даже с Ms Excel, вам не составит труда привыкнуть к функциям в пандах.
Pandas имеет часто используемый формат данных, называемый DataFrame. Pandas DataFrame - это 2D-структура данных. Данные организованы в виде таблицы, содержащей строки и столбцы, что упрощает выполнение запросов. Строки представляют записи данных, а столбцы представляют поля.
Я не буду подробно объяснять, что такое панды, потому что это много обсуждалось. Приступим к кодированию
Набор данных
Я создал простые данные для этого поста, чтобы облегчить понимание Pandas. Данные взяты из Центрального статистического бюро Индонезии (bps.go.id). Набор данных содержит некоторую информацию о провинциях Индонезии в 2015 году. Этот набор данных состоит из 10 столбцов:
Этот набор данных можно скачать на github.
Импорт пакета pandas
Прежде чем мы сможем использовать pandas, нам нужно импортировать пакет и дать ему более короткое имя, а именно pd
Используя свойство __version __, мы можем узнать, какую версию Pandas мы используем. В моем случае я использую Pandas 1.1.0
Загрузка файла .csv в фрейм данных Pandas
Используемый набор данных data-Province-2015.cvs описан ранее и может быть найден по адресу github.com/project303/dataset. Этот набор данных представляет собой формат текстового файла с табуляцией в качестве разделителя между столбцами. Имена столбцов включены в файл набора данных и указаны в первой строке.
Чтобы прочитать его как Pandas DataFrame, мы можем просто использовать команду read_csv ().
Если файл data-Province-2015.cvs был загружен и находится на вашем локальном компьютере, тогда переменную url можно изменить на каталог, в котором находится файл, для пример url = ”c: \ dataset \ data-Province-2015.cvs”
Просмотреть образец данных
После успешной загрузки в Pandas DataFrame нам нужно посмотреть на пример данных. Для этого мы собираемся использовать функцию head () для отображения первых 5 записей DataFrame.
Он показывает, что данные могут быть правильно загружены в DataFrame, а также имена столбцов.
Функцию head () можно параметризовать количеством отображаемых DataFrame. Допустим, мы отобразим первые 10 записей из DataFrame.
Pandas также предоставляет функцию для отображения последних n записей из DataFrame. Просто используйте функцию tail (). Если количество записей не указано, по умолчанию будет отображаться 5 записей.
Функцию sample () можно использовать, если мы хотим отображать случайные записи из DataFrame. Предположим, мы хотим отобразить 10 случайных записей:
Чтобы отобразить все записи, которые у нас есть в DataFrame, просто введите переменную DataFrame:
Подсчитать количество записей
Чтобы получить информацию о количестве записей в DataFrame, мы можем использовать функцию count ()
Функция count () возвращает имя столбца и номер строки. Как показано, все столбцы имеют одинаковое количество записей. Можно сказать, что количество записей 34. Это также означает, что нет нулевых значений.
Другой способ подсчитать количество записей - использовать свойство shape.
Информация о структуре данных
Как описано ранее, Pandas DataFrame - это двухмерные данные. Свойство shape можно использовать для определения размеров DataFrame.
Из значений свойства shape, показанных выше, DataFrame имеет 34 записи и 10 столбцов.
Еще одно свойство, которое можно использовать для отображения структуры DataFrame, - dtypes.
Более подробную информацию о структуре можно отобразить с помощью info ()
Статистическая информация
Статистическая информация для каждого столбца, такая как минимальное значение, максимальное значение, стандартное отклонение, среднее значение и т. Д., Может быть отображена с помощью следующих команд.
Выбор столбца
Мы можем отобразить выбранный столбец, указав имена столбцов в списке
Фильтрация данных
Одной из важных частей, используемых при подготовке и анализе данных, является фильтрация, то есть выбор данных по определенным критериям. Это также называется подмножеством данных.
Для тех, кто знаком с SQL, это часть оператора WHERE.
Например, мы хотим отобразить данные для острова, равного «Суматере».
Мы можем комбинировать несколько условий, используя логический оператор И («&») и логический оператор ИЛИ («|»), чтобы выбрать строки с более чем одним критерием.
Например, мы хотим получить всю провинцию, расположенную на острове Суматера, и уровень безработицы менее 5
Может быть написано по-разному, но имеет то же значение
В приведенном выше примере у него два критерия
1. остров = 'Суматра'
2. безработица ‹5
Использование логический оператор И («&») выше, извлекайте данные, соответствующие обоим критериям.
Если вы хотите получить данные, соответствующие только одному критерию, вы можете использовать оператор логического ИЛИ («|»)
Функцию isin () можно использовать для фильтрации столбца, если значение указано в списке. Например, мы хотим показать провинции на острове Суматра и Калимантан, в которых уровень безработицы меньше 5.
Мы можем отменить условие, используя символ тильды ~, представляющий оператор NOT.
Результат этого утверждения показывает все данные, которые НЕ на Суматере и Калимантане, но имеют уровень безработицы менее 5.
Если выражение условия слишком сложное, рекомендуется создать новый DataFrame, чтобы упростить остальной код.
Сортировка данных
Функция sort_values () используется для сортировки данных по указанному столбцу, начиная с наименьшего значения. Следующая команда отображает данные, отсортированные по столбцу количество осадков.
Чтобы отсортировать данные, начиная с наибольшего значения, параметру по возрастанию присваивается значение False.
Если мы хотим отсортировать данные, используя более одного столбца, нам нужно указать список имен столбцов
В отображаемых данных показано, что строки 3 и 4 в столбце rainy_day не отсортированы соответствующим образом, поскольку они были отсортированы на основе столбца осадков.
Если мы хотим отсортировать данные, но у нас есть разные методы для каждого столбца, необходимо указать параметр по возрастанию. Значение 0 сначала отсортирует наибольшее значение. Значение 1 сначала будет наименьшим.
Перед тем, как ты уйдешь
Молодец! Вы закончили изучение ЧАСТИ 1 Практического руководства Pandas. Надеюсь, вы понимаете, насколько просты Pandas. Вы узнали, как читать данные, получать информацию о структуре, фильтровать и сортировать данные.
В ЧАСТИ 2 закончим все, что нужно знать о пандах. Вы узнаете, как суммировать, группировать данные, преобразовывать столбцы и объединять со справочными данными.
Блокнот в этом посте доступен в моем github.
Пожалуйста, подключитесь к LinkedIn, если хотите поболтать!
Наслаждайтесь обучением и получайте удовольствие от данных!