Question

我正在关注R-Bloggers using rvest to scrape table的教程。我想我有错误的列id值，但我不明白如何获得正确的值。有人可以解释我应该使用什么价值，为什么？

正如@hrbrmstr指出的那样，这违反了WSJ的服务条款，但是对于那些在不同网页上遇到类似问题的人来说，答案很有用。

library("rvest")
interest<-url("http://online.wsj.com/mdc/public/page/2_3020-libor.html")%>%read_html()%>%html_nodes(xpath='//*[@id="column0"]/table[1]') %>% html_table()

结构返回是一个空列表。

Answer 1

对我来说，找到正确的表通常是反复试验。在这种情况下，第三个表格是您正在寻找的：

library("rvest")
page<-url("http://online.wsj.com/mdc/public/page/2_3020-libor.html")%>%read_html()
tables<-html_nodes(page, "table") 
html_table(tables[3])

不是使用xpath，而是解析＆＃34;表＆＃34;标记并查看每个表以找到正确的表。管道命令很方便但是当出现问题时更难调试。

为没有id的表找到正确的xpath

1 个答案: