从单个网页抓取所有表格?

时间:2019-06-28 18:25:13

标签: r xml rselenium

对于第一个站点,数据被刮到reservoirs data.frame中,只需要整理一下,但是对于第二个站点,则有两组表,上下两个表,我不知道如何降低价格。

网站:

1)http://cdec.water.ca.gov/reportapp/javareports?name=RES

2)http://cdec.water.ca.gov/reportapp/javareports?name=FNF

library(tidyverse)
library(XML)

reservoirs <-  "http://cdec.water.ca.gov/reportapp/javareports?name=RES" %>% 
               readHTMLTable() %>% 
               data.frame()  

flows_part1 <- "http://cdec.water.ca.gov/reportapp/javareports?name=FNF" %>% 
               readHTMLTable() %>% 
               data.frame()


#flows_part2 <- ??  

关于如何从第二个站点获取第二个表的任何想法(或者一种更好的方式来首先获取所有内容?)

谢谢!

1 个答案:

答案 0 :(得分:1)

readHTMLTable函数会将所有表存储到一个列表中,然后可以从每个列表元素中提取出来。

flows <-  readHTMLTable("http://cdec.water.ca.gov/reportapp/javareports?name=FNF", as.data.frame = TRUE)

flows_part1 <- flows[[1]]
flows_part2 <- flows[[2]]