Я объединяю несколько таблиц в последовательном порядке с даты. У меня проблема в том, что мне нужно, чтобы все строки выстроились правильно. В некоторых таблицах может быть больше строк, и иногда имена строк могут немного отличаться, даже если они представляют одни и те же данные.
Два URL-адреса, которые содержат данные, которые я объединяю:
url1 <- "https://www.sec.gov/Archives/edgar/data/718332/000101054914000497/R2.htm"
url2 <- "https://www.sec.gov/Archives/edgar/data/718332/000101054918000340/R2.htm"
Затем я получаю df:
df1 <- url1 %>% read_html()%>% html_nodes(xpath="//table[@class='report']") %>% html_table(fill=TRUE)
df2 <- url2 %>% read_html()%>% html_nodes(xpath="//table[@class='report']") %>% html_table(fill=TRUE)
Я пытаюсь использовать merge(df1,df2)
, где я сохраняю исходный df1 из url1
, а затем объединяю только df2[,2]
У меня есть идея, что использование max.len(length(df1[,1]),length(df2[,1]))
поможет решить проблему динамически изменяющихся строк, но у меня остается проблема, заключающаяся в том, что строки не будут правильно выстроены. Может быть, есть какая-то функция сопоставления, которую я могу использовать, но тогда возникает проблема, что иногда строки будут иметь немного разные имена, но представлять одно и то же.