Публикации по теме 'data-wrangling'
Базовый набор инструментов R для пользователей Python
Здесь я представляю несколько фрагментов кода, которые облегчат вам жизнь в R Language.
Переход с одного языка программирования на другой иногда является сложной задачей. Я не говорю, что это сложно, но вы знаете, что код, который вы пишете почти автоматически на Python, просто не может понять в R?
Что ж, в этом посте я добавляю несколько фрагментов кода, которые помогут вам разобраться с основными вещами в R.
Создание двух фреймов данных для примеров
df <- data.frame(..
Кодирование категориальных данных в Python
Модели машинного обучения основаны на числовых уравнениях и вычислении числовых переменных. Но в большинстве случаев в нашем наборе данных есть нечисловые столбцы, такие как страны, названия, города и т. Д. В таком состоянии нам необходимо преобразовать эти столбцы в числовые значения, которые можно использовать для дальнейшей обработки.
В python мы встроили библиотеки, которые могут помочь нам в выполнении этих задач. В этом примере мы будем использовать модуль sklearn...
Вопросы по теме 'data-wrangling'
Как добавить новые строки из одного фрейма данных в другой на основе ключевого столбца
Мой df1 - это что-то вроде первой таблицы на изображении ниже с ключевым столбцом Name. Я хочу добавить новые строки из другого фрейма данных, df2, который имеет только столбцы «Имя», «Год» и «Значение». Новые строки должны добавляться на основе...
36 просмотров
schedule
16.11.2021
Как создать фиктивную переменную для интервалов
Я хочу добавить столбец таблицы gwas, который указывает, какой ген он основан на начальной и конечной позиции гена. Как это сделать в dplyr?
> gwas
# A tibble: 1,220,764 x 13
CHROM POS ID REF ALT A1 TEST OBS_CT BETA...
88 просмотров
schedule
22.11.2021
Слияние двух фреймов данных с разными структурами
Я пытаюсь объединить два фрейма данных друг с другом. Но я придерживаюсь логики (возможно, я слишком долго смотрел на проблему).
Проблема: DF1 имеет следующий формат:
Country ID March April May June
Netherlands A 10...
42 просмотров
schedule
07.09.2021
Обработка данных в r
Я пытаюсь разбить свои данные на новые фреймы данных, чтобы выполнить анализ.
У меня есть фреймы данных по 134 образцам, которые содержат много информации, но меня интересуют только столбцы типа, имени и выражения. Как я могу сделать цикл (или...
52 просмотров
schedule
08.10.2021
Как создать продажи в этом году и в предыдущем году в двух разных столбцах?
Мне нужно создать два разных столбца: один для продаж в этом году и один для прошлогодних продаж на основе данных транзакционного уровня?
Формат данных:-
Date | bill amount
2019-07-22 | 500
2019-07-25 | 200...
34 просмотров
schedule
04.03.2022
Как заменить значения в нескольких условиях с помощью purrr?
Сообщение было отредактировано 17 августа 2020 г., чтобы пример больше походил на мои настоящие данные.
Дни всегда начинаются с 1 или 2 цифр. Месяцы всегда идут вторыми полностью или частично и по-французски. Годы всегда идут на третьем месте с...
73 просмотров
schedule
14.03.2022
Создание нескольких новых столбцов в DF в зависимости от порядка логических столбцов
Я пытаюсь создать три новых столбца со значениями в зависимости от определенного порядка трех столбцов логического типа.
например у меня есть это:
a b c
1 TRUE TRUE TRUE
2 TRUE FALSE TRUE
3 TRUE FALSE TRUE
И в зависимости от...
32 просмотров
schedule
05.06.2022
Ошибка со «стандартной однозначной датой» для преобразования строки в дату в R
Итак, я пробую этот код, который я использовал в прошлом с другими задачами обработки данных без ошибок:
## Create an age_at_enrollment variable, based on the start_date per individual (i.e. I want to know an individual's age, when they began...
66 просмотров
schedule
23.06.2022
R tidyverse: создавать группы на основе столбца индекса
У меня есть этот кусок
# Data
set.seed(1)
x <- tibble(values = round(rnorm(20, 10, 10), 0),
index = c(0,0,1,1,1,0,1,0,1,1,1,1,1,1,0,
1,1,0,0,0))
x
#> # A tibble: 20 x 2
#> values index
#>...
69 просмотров
schedule
08.07.2022
Создайте случайную двоичную переменную для подмножества наблюдений, назначив 1 определенной пропорции строк
У меня есть датафрейм...
df <- tibble(
id = 1:10,
family = c("a","a","b","b","c", "d", "e", "f", "g", "h")
)
Семьи будут состоять не более чем из 2 членов (поэтому они могут быть либо отдельными людьми, либо парами).
Для...
61 просмотров
schedule
02.10.2022
Преобразование числового столбца (разница между временем прибытия и отправления) кадра данных в минуты
Уважаемые члены сообщества R, я хотел бы создать новую переменную (время в пути), основанную на разнице между временем отправления и временем прибытия пассажиров (время прибытия - время отправления) из пункта отправления в пункт назначения (24-часовой...
41 просмотров
schedule
16.04.2023
Как сбросить индекс строки набора данных
Я новичок во всем, что касается данных... И я пытаюсь очистить свои данные и привести их к форме, с которой они могут работать.
df = pd.read_excel('https://query.data.world/s/s3t37yqxxeoabyocyh6g33fojskwvq')
df.head()
Что мне делать,...
15 просмотров
schedule
23.06.2023
Растапливайте с помощью функций tidyverse (dplyr), когда требуется `measure = patterns (x, y)` из data.table
У меня есть хороший и довольно длинный канал различных команд tidyverse, но на полпути мне нужно использовать SetDT() %>% melt(...) %>% as_tibble() . Мой код работает нормально, но мне было интересно, может ли чистое решение tidyverse с...
284 просмотров
schedule
26.11.2022
Проверьте, существуют ли значения одного кадра данных в другом кадре данных в точном порядке
У меня есть 1 фрейм данных и несколько фреймов справочных данных. Я пытаюсь автоматизировать проверку, соответствуют ли значения фрейма данных значениям эталонных фреймов данных. Важно отметить, что значения также должны быть в том же порядке, что и...
98 просмотров
schedule
20.02.2023
Использование mutate ifelse и rollappy для создания условного фактора на основе изменений в непрерывной переменной
Вкратце: мне нужно указать, была ли акция основана на падении (или нет) цены с течением времени или нет. Я открыт для альтернативных подходов.
У меня есть набор данных о ценах, разделенных по нескольким группирующим факторам с течением времени....
134 просмотров
schedule
04.03.2023
Подсчитать строки (условно) в течение указанного периода времени по группам в R
Я работаю с данными, сгенерированными пользователями, и хочу подсчитать количество строк / действий, то есть звонков каждого пользователя, сделанных в течение определенного периода времени. Вот макет фрейма данных, похожий на тот, с которым я...
123 просмотров
schedule
07.01.2023
Pivot_longer () для нескольких наборов столбцов в dplyr
У меня есть друг с широким фреймом данных, и я хотел бы выполнить pivot_longer () для нескольких наборов столбцов. Ниже приведен минимальный пример фрейма данных:
id <- c(303, 303)
year <- c(2020, 2020)
city_a <- c("Madrid",...
428 просмотров
schedule
15.10.2022
Заполнение нескольких столбцов отсутствующими данными из другого набора данных
У меня есть набор данных, который содержит некоторые пропущенные значения, которые можно заполнить путем слияния с другим набором данных. Мой пример:
Это обновленный набор данных, с которым я работаю.
DF1
Name Paper Book Mug...
58 просмотров
schedule
11.10.2022
Последовательность генерации в R для конкретных лет
Я хочу создать убывающий счетчик на несколько лет в моих данных. По сути, у меня есть две разные даты происшествий, и я хочу перейти с первой на вторую. У меня тоже есть пропавшие случаи, но без инцидентов.
В моих очень плохо смоделированных...
35 просмотров
schedule
03.08.2023
Python: если строка столбца Address1, Address2, Address3, Address4 содержит «x», то напишите «x» в столбце Address4
Я новичок в python и не знаю, с чего начать работу с моим набором данных, у меня есть данные о продажах клиентов в электронной коммерции, и мне нужен один из столбцов, содержащий часть адреса округа. Округ в большинстве случаев уже указан в столбце...
61 просмотров
schedule
04.11.2022