webscrap网站上有这样的声明:WebForm_DoPostBackWithOptions

时间:2016-06-03 22:24:05

标签: asp.net r web-scraping rvest httr

我正在尝试使用R中的rvesthttr来废弃this webpage

使用以下代码我创建了包含所有文档的表格,但我需要下载为表格的每一行生成的pdf

session <- html_session(url)
form <- html_form(session)
form <- form[[1]]
res <- session %>%
  submit_form(form)

我明白了看here

WebForm_PostBackOptions("ctl00$ConteudoPagina$gdvEntidade$ctl03$lnkArquivo", "", true, "", "", false, true))

向POST方法添加两个新参数:

  • _EVENTTARGET ='ctl00 $ ConteudoPagina $ gdvEntidade $ ctl03 $ lnkArquivo'
  • _EVENTARGUMENT =''

所以我将其添加到表单值:

form$fields[["_EVENTTARGET"]] <- list(name = "_EVENTTARGET", value = 'ctl00$ConteudoPagina$gdvEntidade$ctl03$lnkArquivo')
form$fields[["_EVENTARGUMENT"]] <- list(name = "_EVENTARGUMENT", value = '')

并重新提交表格:

res2 <- session %>%
  submit_form(form)

res2res完全相同。我应该如何提交表格以获取PDF?

0 个答案:

没有答案