Реструктуризация подмножества данных R

Я новичок в R / Rstudio и все еще учусь выполнять определенные операции. У меня есть следующий набор данных. Для столбцов у меня есть рабочий регион, тип элемента (CA, OBU), подэлемент и чистый доход. В настоящее время данные довольно большие (50 000 строк), и я хочу получить сводку рабочей области по элементам, подэлементам и NR. Пример

 Operating Region   Element Sub-Element NR
 Asia        CA     CA123   50 000
 America    OBU     EFK456  35 000

Может ли кто-нибудь посоветовать мне, как это сделать? Будем очень признательны за любые соответствующие чтения / примеры.


person starter123    schedule 22.09.2014    source источник
comment
Вы хотите получить сводную статистику NR по Operating, Region, Element, Sub-Element?   -  person akrun    schedule 22.09.2014
comment
Или используйте library(doBy); summaryBy   -  person akrun    schedule 22.09.2014


Ответы (1)


Используя приведенные ниже данные для возврата «данных» объекта фрейма данных, вы можете использовать пакет dplyr для организации результатов множеством различных способов. Вот один пример:

data <- data.frame("OperatingRegion" = c("Asia", "America"), "Region" = c("CA", "OBU"), "Element" = c("CA123", "EFK456"), "SubElement" = c(50000, 35000))

require(dplyr)
results <- data %.%
  group_by(OperatingRegion) %.%
  summarise(SubE = sum(SubElement, na.rm = TRUE))

Source: local data frame [2 x 2]

  OperatingRegion  SubE
1         America 35000
2            Asia 50000

После загрузки пакета вы предоставляете dplyr фрейм данных, а затем, используя специальные операторы%.% Или%>%, group_by, какую бы одну или несколько переменных вы ни захотели. Затем вызовите summarise, чтобы создать суммы, медианы, средние значения или любое другое вычисление, которое вы хотите.

person lawyeR    schedule 22.09.2014