我正在尝试抓取一个网站来抓取并将特定的html表放入数据框。
例如,我只想要包含单词" EBIT"的整个表格。我弄乱了用XML获取所有表格:
library(XML)
theurl <- "http://www.advfn.com/stock-market/NYSE/LF/financials?btn=start_date&start_date=13&mode=annual_reports"
tables <- readHTMLTable(theurl)
summary(tables)
我是网络抓取的新手,可以使用一些帮助。提前致谢
亚伦
答案 0 :(得分:1)
这接近你想要的:
library(rvest)
stock <- read_html("http://www.advfn.com/stock-market/NYSE/LF/financials?btn=start_date&start_date=13&mode=annual_reports")
stock %>%
html_nodes(".sb") %>%
html_text()