webscraping没有html类的表

时间:2019-12-20 19:37:05

标签: r web-scraping rvest

我正在探索抓取一些天气数据的方法,特别是本页https://wrcc.dri.edu/cgi-bin/cliMAIN.pl?ak4988右侧面板中的表格

我能够导航到适当的位置(请参见下文),但是无法拉出表格,例如html_nodes("table")

  library(tidyverse)
  library(rvest)


  url<- read_html("https://wrcc.dri.edu/cgi-bin/cliMAIN.pl?ak4988") 

  url %>% 
   html_nodes("frame") %>% 
   magrittr::extract2(2)

  # {html_node}
  # <frame src="/cgi-bin/cliRECtM.pl?ak4988" name="Graph">

我也没有运气看过命名空间

xml_ns(url)

# <-> 

1 个答案:

答案 0 :(得分:0)

这对我有用。

library(rvest)
library(magrittr)
library(plyr)

#Doing URLs one by one
url<-"https://wrcc.dri.edu/cgi-bin/cliRECtM.pl?ak4988"

##GET SALES DATA
pricesdata <- read_html(url) %>% html_nodes(xpath = "//table[1]") %>% html_table(fill=TRUE)
library(plyr)
df <- ldply(pricesdata, data.frame)

最初,我输入的网址错误。莫佐佐的评论为我指明了正确的方向。我不确定如何或为什么将不同的URL馈入同一URL。可能与单个窗口中的不同滚动窗口有关。如果有人对此有所了解,我将很想听听它的工作原理……谢谢!