为没有id的表找到正确的xpath

时间:2016-10-19 01:27:45

标签: html r xpath

我正在关注R-Bloggers using rvest to scrape table的教程。我想我有错误的列id值,但我不明白如何获得正确的值。有人可以解释我应该使用什么价值,为什么?

正如@hrbrmstr指出的那样,这违反了WSJ的服务条款,但是对于那些在不同网页上遇到类似问题的人来说,答案很有用。

library("rvest")
interest<-url("http://online.wsj.com/mdc/public/page/2_3020-libor.html")%>%read_html()%>%html_nodes(xpath='//*[@id="column0"]/table[1]') %>% html_table()

结构返回是一个空列表。

1 个答案:

答案 0 :(得分:1)

对我来说,找到正确的表通常是反复试验。在这种情况下,第三个表格是您正在寻找的:

library("rvest")
page<-url("http://online.wsj.com/mdc/public/page/2_3020-libor.html")%>%read_html()
tables<-html_nodes(page, "table") 
html_table(tables[3])

不是使用xpath,而是解析&#34;表&#34;标记并查看每个表以找到正确的表。管道命令很方便但是当出现问题时更难调试。