网页抓取动态表格

时间:2017-04-11 03:24:04

标签: javascript r web-scraping rvest httr

我想从this page

上的表格中删除数据

但来自GET的{​​{1}}或来自httr的{​​{1}}无法读取该表格。我已检查此网页的结构,但在加载网页时无法找到有关提取数据的任何POST或GET请求。

1 个答案:

答案 0 :(得分:2)

从页面源我们可以看到该表嵌入在一个框架中。表格的URL本身是at this link

所以你可以尝试:

u <- "http://datacenter.mep.gov.cn:8099/ths-report/report!list.action?xmlname=1466632112484&V_YEAR=2016&V_waterplace=%27%E5%90%89%E6%9E%97%E6%BA%AA%E6%B5%AA%E5%8F%A3%27"

mytable <- u %>%
  read_html() %>%
  html_node("table") %>%
  html_table()
然后进行一些清理处理非英文字符。