Я хочу сгенерировать набор идентификаторов диад для кадра данных двустороннего торгового потока (который закодирован в формате from
, to
и amount
traded), чтобы я мог использовать эти идентификаторы для дальнейшего статистического анализа.
Мой пример данных представлен ниже, из которого я извлек и идентифицировал уникальные диады стран из данных, которые включают США.
# load the example data
trade_flow <- readRDS(gzcon(url("https://www.dropbox.com/s/ep7xldoq9go4f0g/trade_flow.rds?dl=1")))
# extract country dyads
country_dyad <- trade_flow[, c("from", "to")]
# identify unique pairs
up <- country_dyad[!duplicated(t(apply(country_dyad, 1, sort))),]
# extract only unique pairs that involve the US
up <- up[(up$from == "USA") | (up$to == "USA"), ]
## how can I use the unique pair object (up) to generate dyad identifiers and include them as a new column in the trade_flow dataframe
Следующим шагом является сопоставление этих уникальных пар диад из столбцов from
и to
исходного фрейма данных (trade_flow
) и создание списка уникальных идентификаторов диад в качестве нового столбца (скажем, dyad
) для df (trade_flow
). Это должно выглядеть примерно так, как показано ниже, в котором каждая уникальная диада идентифицируется и кодируется как уникальное числовое значение. Я буду признателен, если кто-то может помочь мне в этом.
from to trade_flow dyad
USA ITA 5100 2
USA UKG 4000 1
USA GMY 17000 3
USA ITA 4500 2
USA JPN 2900 4
USA UKG 6700 1
USA ROK 7000 5
USA UKG 2300 1
USA SAF 1500 6
IND USA 2400 7