Публикации по теме 'data-wrangling'


Базовый набор инструментов R для пользователей Python
Здесь я представляю несколько фрагментов кода, которые облегчат вам жизнь в R Language. Переход с одного языка программирования на другой иногда является сложной задачей. Я не говорю, что это сложно, но вы знаете, что код, который вы пишете почти автоматически на Python, просто не может понять в R? Что ж, в этом посте я добавляю несколько фрагментов кода, которые помогут вам разобраться с основными вещами в R. Создание двух фреймов данных для примеров df <- data.frame(..

Кодирование категориальных данных в Python
Модели машинного обучения основаны на числовых уравнениях и вычислении числовых переменных. Но в большинстве случаев в нашем наборе данных есть нечисловые столбцы, такие как страны, названия, города и т. Д. В таком состоянии нам необходимо преобразовать эти столбцы в числовые значения, которые можно использовать для дальнейшей обработки. В python мы встроили библиотеки, которые могут помочь нам в выполнении этих задач. В этом примере мы будем использовать модуль sklearn...

Вопросы по теме 'data-wrangling'

Как добавить новые строки из одного фрейма данных в другой на основе ключевого столбца
Мой df1 - это что-то вроде первой таблицы на изображении ниже с ключевым столбцом Name. Я хочу добавить новые строки из другого фрейма данных, df2, который имеет только столбцы «Имя», «Год» и «Значение». Новые строки должны добавляться на основе...
36 просмотров
schedule 16.11.2021

Как создать фиктивную переменную для интервалов
Я хочу добавить столбец таблицы gwas, который указывает, какой ген он основан на начальной и конечной позиции гена. Как это сделать в dplyr? > gwas # A tibble: 1,220,764 x 13 CHROM POS ID REF ALT A1 TEST OBS_CT BETA...
88 просмотров

Слияние двух фреймов данных с разными структурами
Я пытаюсь объединить два фрейма данных друг с другом. Но я придерживаюсь логики (возможно, я слишком долго смотрел на проблему). Проблема: DF1 имеет следующий формат: Country ID March April May June Netherlands A 10...
42 просмотров
schedule 07.09.2021

Обработка данных в r
Я пытаюсь разбить свои данные на новые фреймы данных, чтобы выполнить анализ. У меня есть фреймы данных по 134 образцам, которые содержат много информации, но меня интересуют только столбцы типа, имени и выражения. Как я могу сделать цикл (или...
52 просмотров
schedule 08.10.2021

Как создать продажи в этом году и в предыдущем году в двух разных столбцах?
Мне нужно создать два разных столбца: один для продаж в этом году и один для прошлогодних продаж на основе данных транзакционного уровня? Формат данных:- Date | bill amount 2019-07-22 | 500 2019-07-25 | 200...
34 просмотров

Как заменить значения в нескольких условиях с помощью purrr?
Сообщение было отредактировано 17 августа 2020 г., чтобы пример больше походил на мои настоящие данные. Дни всегда начинаются с 1 или 2 цифр. Месяцы всегда идут вторыми полностью или частично и по-французски. Годы всегда идут на третьем месте с...
73 просмотров
schedule 14.03.2022

Создание нескольких новых столбцов в DF в зависимости от порядка логических столбцов
Я пытаюсь создать три новых столбца со значениями в зависимости от определенного порядка трех столбцов логического типа. например у меня есть это: a b c 1 TRUE TRUE TRUE 2 TRUE FALSE TRUE 3 TRUE FALSE TRUE И в зависимости от...
32 просмотров
schedule 05.06.2022

Ошибка со «стандартной однозначной датой» для преобразования строки в дату в R
Итак, я пробую этот код, который я использовал в прошлом с другими задачами обработки данных без ошибок: ## Create an age_at_enrollment variable, based on the start_date per individual (i.e. I want to know an individual's age, when they began...
66 просмотров
schedule 23.06.2022

R tidyverse: создавать группы на основе столбца индекса
У меня есть этот кусок # Data set.seed(1) x <- tibble(values = round(rnorm(20, 10, 10), 0), index = c(0,0,1,1,1,0,1,0,1,1,1,1,1,1,0, 1,1,0,0,0)) x #> # A tibble: 20 x 2 #> values index #>...
69 просмотров
schedule 08.07.2022

Создайте случайную двоичную переменную для подмножества наблюдений, назначив 1 определенной пропорции строк
У меня есть датафрейм... df <- tibble( id = 1:10, family = c("a","a","b","b","c", "d", "e", "f", "g", "h") ) Семьи будут состоять не более чем из 2 членов (поэтому они могут быть либо отдельными людьми, либо парами). Для...
61 просмотров
schedule 02.10.2022

Преобразование числового столбца (разница между временем прибытия и отправления) кадра данных в минуты
Уважаемые члены сообщества R, я хотел бы создать новую переменную (время в пути), основанную на разнице между временем отправления и временем прибытия пассажиров (время прибытия - время отправления) из пункта отправления в пункт назначения (24-часовой...
41 просмотров

Как сбросить индекс строки набора данных
Я новичок во всем, что касается данных... И я пытаюсь очистить свои данные и привести их к форме, с которой они могут работать. df = pd.read_excel('https://query.data.world/s/s3t37yqxxeoabyocyh6g33fojskwvq') df.head() Что мне делать,...
15 просмотров
schedule 23.06.2023

Растапливайте с помощью функций tidyverse (dplyr), когда требуется `measure = patterns (x, y)` из data.table
У меня есть хороший и довольно длинный канал различных команд tidyverse, но на полпути мне нужно использовать SetDT() %>% melt(...) %>% as_tibble() . Мой код работает нормально, но мне было интересно, может ли чистое решение tidyverse с...
284 просмотров
schedule 26.11.2022

Проверьте, существуют ли значения одного кадра данных в другом кадре данных в точном порядке
У меня есть 1 фрейм данных и несколько фреймов справочных данных. Я пытаюсь автоматизировать проверку, соответствуют ли значения фрейма данных значениям эталонных фреймов данных. Важно отметить, что значения также должны быть в том же порядке, что и...
98 просмотров
schedule 20.02.2023

Использование mutate ifelse и rollappy для создания условного фактора на основе изменений в непрерывной переменной
Вкратце: мне нужно указать, была ли акция основана на падении (или нет) цены с течением времени или нет. Я открыт для альтернативных подходов. У меня есть набор данных о ценах, разделенных по нескольким группирующим факторам с течением времени....
134 просмотров
schedule 04.03.2023

Подсчитать строки (условно) в течение указанного периода времени по группам в R
Я работаю с данными, сгенерированными пользователями, и хочу подсчитать количество строк / действий, то есть звонков каждого пользователя, сделанных в течение определенного периода времени. Вот макет фрейма данных, похожий на тот, с которым я...
123 просмотров

Pivot_longer () для нескольких наборов столбцов в dplyr
У меня есть друг с широким фреймом данных, и я хотел бы выполнить pivot_longer () для нескольких наборов столбцов. Ниже приведен минимальный пример фрейма данных: id <- c(303, 303) year <- c(2020, 2020) city_a <- c("Madrid",...
428 просмотров
schedule 15.10.2022

Заполнение нескольких столбцов отсутствующими данными из другого набора данных
У меня есть набор данных, который содержит некоторые пропущенные значения, которые можно заполнить путем слияния с другим набором данных. Мой пример: Это обновленный набор данных, с которым я работаю. DF1 Name Paper Book Mug...
58 просмотров
schedule 11.10.2022

Последовательность генерации в R для конкретных лет
Я хочу создать убывающий счетчик на несколько лет в моих данных. По сути, у меня есть две разные даты происшествий, и я хочу перейти с первой на вторую. У меня тоже есть пропавшие случаи, но без инцидентов. В моих очень плохо смоделированных...
35 просмотров
schedule 03.08.2023

Python: если строка столбца Address1, Address2, Address3, Address4 содержит «x», то напишите «x» в столбце Address4
Я новичок в python и не знаю, с чего начать работу с моим набором данных, у меня есть данные о продажах клиентов в электронной коммерции, и мне нужен один из столбцов, содержащий часть адреса округа. Округ в большинстве случаев уже указан в столбце...
61 просмотров