Question

我正在尝试抓取一个网站来抓取并将特定的html表放入数据框。

例如，我只想要包含单词＆＃34; EBIT＆＃34;的整个表格。我弄乱了用XML获取所有表格：

library(XML)
theurl <- "http://www.advfn.com/stock-market/NYSE/LF/financials?btn=start_date&start_date=13&mode=annual_reports"
tables <- readHTMLTable(theurl)

summary(tables)

我是网络抓取的新手，可以使用一些帮助。提前致谢

亚伦

Answer 1

这接近你想要的：

library(rvest)
stock <- read_html("http://www.advfn.com/stock-market/NYSE/LF/financials?btn=start_date&start_date=13&mode=annual_reports")

stock %>% 
  html_nodes(".sb") %>% 
  html_text()

使用R和XML包，如何刮取包含特定文本的HTML表？

1 个答案: