这两个页面具有相同的数据表(如果另一个关闭,则一个用作备份)。我可以从library(XML)
的{{1}}的每个页面的表中获取列数据,但无法获取表的标题。我需要在标头中使用的是日期-年时间戳记(当前为readHTMLTable()
),以分配给数据。在我完成的少量抓取工作中,在其他类似的页面上,我使用了SelectorGadget(https://selectorgadget.com/)Chrome扩展程序,通过输入August 2019
的{{1}}参数来识别要抓取的节点,但是SelectorGadget在这两种情况下似乎都不起作用,因此我对另一种方法一无所知。
关于如何在这两个页面中的一个或两个页面中刮取超大字体“ Month Year”标题的任何提示?我的预期输出是获取表的月份和年份,即今天的日期为library(rvest)
。
http://cdec.water.ca.gov/cgi-progs/reports.cur?s=fnf
http://cdec.water.ca.gov/reportapp/javareports?name=FNF
谢谢!
答案 0 :(得分:1)
使用此代码,您可以提取表的标题。之后,只需提取月份和年份。
library(rvest)
read_html('http://cdec.water.ca.gov/cgi-progs/reports.cur?s=fnf') %>%
html_nodes("h1") %>%
html_text()