我将从日期开始按顺序组合多个表。我的问题是我需要所有行才能正确排列。某些表可能具有更多的行,有时即使这些行表示相同的数据,其行名也可能略有不同。
包含我要合并的数据的两个网址是:
url1 <- "https://www.sec.gov/Archives/edgar/data/718332/000101054914000497/R2.htm"
url2 <- "https://www.sec.gov/Archives/edgar/data/718332/000101054918000340/R2.htm"
然后我得到了df:
df1 <- url1 %>% read_html()%>% html_nodes(xpath="//table[@class='report']") %>% html_table(fill=TRUE)
df2 <- url2 %>% read_html()%>% html_nodes(xpath="//table[@class='report']") %>% html_table(fill=TRUE)
我正在尝试使用merge(df1,df2)
,在这里我保留url1
的初始df1,然后仅合并df2[,2]
我有个想法,使用max.len(length(df1[,1]),length(df2[,1]))
将有助于解决动态变化的行的问题,但是这给我带来了行无法正确对齐的问题。也许我可以使用某种匹配函数,但问题是有时行的名称会稍有不同,但表示相同的内容