我正在关注R-Bloggers using rvest to scrape table的教程。我想我有错误的列id值,但我不明白如何获得正确的值。有人可以解释我应该使用什么价值,为什么?
正如@hrbrmstr指出的那样,这违反了WSJ的服务条款,但是对于那些在不同网页上遇到类似问题的人来说,答案很有用。
library("rvest")
interest<-url("http://online.wsj.com/mdc/public/page/2_3020-libor.html")%>%read_html()%>%html_nodes(xpath='//*[@id="column0"]/table[1]') %>% html_table()
结构返回是一个空列表。
答案 0 :(得分:1)
对我来说,找到正确的表通常是反复试验。在这种情况下,第三个表格是您正在寻找的:
library("rvest")
page<-url("http://online.wsj.com/mdc/public/page/2_3020-libor.html")%>%read_html()
tables<-html_nodes(page, "table")
html_table(tables[3])
不是使用xpath,而是解析&#34;表&#34;标记并查看每个表以找到正确的表。管道命令很方便但是当出现问题时更难调试。