Объединение кадров данных в R последовательно с динамическими строками

Я объединяю несколько таблиц в последовательном порядке с даты. У меня проблема в том, что мне нужно, чтобы все строки выстроились правильно. В некоторых таблицах может быть больше строк, и иногда имена строк могут немного отличаться, даже если они представляют одни и те же данные.

Два URL-адреса, которые содержат данные, которые я объединяю:

url1 <- "https://www.sec.gov/Archives/edgar/data/718332/000101054914000497/R2.htm"

url2 <- "https://www.sec.gov/Archives/edgar/data/718332/000101054918000340/R2.htm"

Затем я получаю df:

df1 <- url1 %>% read_html()%>% html_nodes(xpath="//table[@class='report']") %>% html_table(fill=TRUE)

df2 <- url2 %>% read_html()%>% html_nodes(xpath="//table[@class='report']") %>% html_table(fill=TRUE)

Я пытаюсь использовать merge(df1,df2), где я сохраняю исходный df1 из url1, а затем объединяю только df2[,2]

У меня есть идея, что использование max.len(length(df1[,1]),length(df2[,1])) поможет решить проблему динамически изменяющихся строк, но у меня остается проблема, заключающаяся в том, что строки не будут правильно выстроены. Может быть, есть какая-то функция сопоставления, которую я могу использовать, но тогда возникает проблема, что иногда строки будут иметь немного разные имена, но представлять одно и то же.


person Sammy Sosa    schedule 21.02.2019    source источник
comment
Похоже, вы хотите выполнить левое соединение, используя r.   -  person Edeki Okoh    schedule 22.02.2019
comment
Что, если имена строк разные, например, в одном может быть написано «доход/убыток», а в другом — «убыток», но оба они представляют одно и то же.   -  person Sammy Sosa    schedule 22.02.2019