使用R和XML包,如何刮取包含特定文本的HTML表?

时间:2016-02-07 19:36:42

标签: xml r

我正在尝试抓取一个网站来抓取并将特定的html表放入数据框。

Web Site

例如,我只想要包含单词" EBIT"的整个表格。我弄乱了用XML获取所有表格:

library(XML)
theurl <- "http://www.advfn.com/stock-market/NYSE/LF/financials?btn=start_date&start_date=13&mode=annual_reports"
tables <- readHTMLTable(theurl)

summary(tables)

我是网络抓取的新手,可以使用一些帮助。提前致谢

亚伦

1 个答案:

答案 0 :(得分:1)

这接近你想要的:

library(rvest)
stock <- read_html("http://www.advfn.com/stock-market/NYSE/LF/financials?btn=start_date&start_date=13&mode=annual_reports")

stock %>% 
  html_nodes(".sb") %>% 
  html_text()