Вопросы по теме 'pandas-groupby'

Объединить группы после итерации
У меня есть фреймворк, содержащий значения для стран и лет: country year value US 2000 20 JP 2000 10 AU 2000 5 US 2001 22 JP 2001 12 AU 2001 6 US 2002 23 JP 2002 14 AU 2002 8 Я...
1317 просмотров
schedule 27.09.2021

Сортировка сгруппированных данных по размеру группы в Pandas
В моем наборе данных есть два столбца: col1 и col2. Я хочу сгруппировать данные по col1, а затем отсортировать данные по размеру каждой группы. То есть я хочу отображать группы в порядке возрастания их размера. Я написал код для группировки и...
26022 просмотров
schedule 02.12.2021

Groupby в пандах, заполняя недостающие группы с помощью []
Любая помощь по более точному названию этого вопроса приветствуется. У меня есть pandas фрейм данных с наблюдениями на уровне клиента, в которых записывается дата и элементы, потребленные клиентом в этот день. Это выглядит так. df store...
3294 просмотров
schedule 05.09.2021

Панды - Groupby с условной формулой
Survived SibSp Parch 0 0 1 0 1 1 1 0 2 1 0 0 3 1 1 0 4 0 0 1 Учитывая приведенный выше фрейм данных, есть ли элегантный способ groupby с условием?...
24431 просмотров

Применение функции к Pandas Groupby
В настоящее время я работаю с панельными данными в Python, и я пытаюсь вычислить скользящее среднее для каждого наблюдения временного ряда в пределах данной группы (ID). Учитывая размер моего набора данных (тысячи групп с несколькими периодами...
507 просмотров

Python Pandas groupby применяет лямбда-аргументы
В видеоролике coursera о Python Pandas groupby (в курсе Введение в науку о данных в Python) приводится следующий пример: df.groupby('Category').apply(lambda df,a,b: sum(df[a] * df[b]), 'Weight (oz.)', 'Quantity') Где df - это DataFrame, а...
31187 просмотров
schedule 18.09.2021

Как сгруппировать по частям имени столбца для прямоугольной диаграммы?
Я ищу groupby подмножество имен столбцов для создания блочных графиков в python pandas. У меня есть следующий набор данных: local_term_1year | regional_term_1year | local_term_2year | regional_term_2year...
62 просмотров

Как вы указываете групповые операции pandas, которые работают с предыдущими записями?
У меня есть фреймворк Pandas, который должен быть отсортирован по Col_2: +----+-------+-------+ | id | Col_1 | Col_2 | +----+-------+-------+ | 1 | 0 | 21 | | 1 | 1 | 24 | | 1 | 1 | 32 | | 1 | 0 | 35 | | 1 | 1...
47 просмотров

Как отфильтровать группировку повторяющихся строк по индексу в кадре данных pandas?
У меня путаница в отношении фильтрации и извлечения повторяющихся строк в кадре данных pandas. Например, рассмотрим: col1 col2 col3 col4 col5 ID 1 yes 0 1 2 201 2 0 1 0...
673 просмотров

Разделить фрейм данных на несколько фреймов на основе группировки и биннинга
У меня есть фрейм данных в пандах, содержащий информацию, которую я хотел бы отсортировать по группам на основе их идентификатора («квадрат»). Я хочу получить среднюю яркость для каждой группы, и на основе этой средней яркости я хочу разделить фрейм...
176 просмотров

Агрегация Pandas groupby с переменными временными окнами
У меня есть фрейм данных ( df ), подобный приведенному ниже: month-year name a b c start_date end_date 2018-01 X 2 1 4 2018-01-01 2018-01-31 2018-01 Y 1 0 5 2018-01-01 2018-02-31 2018-01...
62 просмотров
schedule 18.11.2021

почему df.groupby (). apply () вычисляет первую группу дважды
Когда я использую функцию groupby (). Apply () для вычисления некоторых данных, таких как средневзвешенное значение. Я обнаружил, что первая группа всегда рассчитывается дважды. Например: def test(dataframe): df = dataframe.copy() a =...
41 просмотров
schedule 26.09.2021

Группируйте данные Pandas по часам дня
Я использовал следующий код для генерации случайной даты и значений: import pandas as pd import numpy as np time = pd.date_range('1/1/2000', periods=2000, freq='5min') series = pd.Series(np.random.randint(100, size=2000), index=time) вывод...
3117 просмотров
schedule 12.11.2021

Pandas - группировать, чтобы возвращать первое вхождение и каждое третье вхождение значения
Я пытаюсь отфильтровать записи из Dataframe на основе их появления. Я пытаюсь отфильтровать first occurence , а затем every third occurence на основе emp_id. Ниже приведен мой Dataframe. emp_id,date,value 101,2018-12-01,10001...
25 просмотров
schedule 18.11.2021

Выкатывание m из n самых последних вхождений условия в пандах
Меня интересует количество m раз в течение последних n событий, когда условие выполнено, сгруппированных по человеку или пользователю . В частности, меня интересует, привык ли игрок играть в данном классе или «категории», в зависимости от того,...
136 просмотров
schedule 26.09.2021

Как я могу сделать так, чтобы группы в определенном столбце отображались, когда для слияния используется метод groupby?
x=df.groupby(['id_gamer'])[['sucess', 'nb_games']].shift(periods=1).cumsum() .apply(lambda row: row.sucess/row.nb_games, axis=1) В приведенном выше коде я делаю groupby на pandas.DataFrame , чтобы получить...
58 просмотров
schedule 07.09.2021

Python2.7 - группа фреймов данных Pandas по двум критериям
Допустим, у меня есть панад DataFrame: import pandas as pd df = pd.DataFrame(columns=['name','time']) df = df.append({'name':'Waren', 'time': '20:15'}, ignore_index=True) df = df.append({'name':'Waren', 'time': '20:12'}, ignore_index=True) df =...
65 просмотров
schedule 21.10.2021

строки группировки фрейма данных python на основе номера строки
У меня есть фрейм данных с 40 строками, и я хочу перебрать его, поэтому у меня будет 4 итерации по 10 строк в каждой, последовательно. Таким образом, группа № 0 будет строками 0–9, группа № 1 будет строками 10–19 и так далее. Как я могу это...
60 просмотров
schedule 26.10.2021

Как объединить строки в фрейме данных с разными столбцами?
Я хочу объединить строки фрейма данных с одним общим значением столбца, а затем объединить остальные значения столбца, разделенные запятой для строковых значений, и преобразовать в массив / список для значений типа int. A B C D 1 one...
168 просмотров
schedule 07.10.2021

Как я могу условно суммировать значения из разных столбцов после агрегирования?
У меня есть этот фрейм данных для начала: ID PRODUCT_ID NAME STOCK SELL_COUNT DELIVERED_BY PRICE_A PRICE_B 1 P1 PRODUCT_P1 12 15 UPS 32,00 40,00 2 P2 PRODUCT_P2 4 3 DHL...
42 просмотров