rvest / httr:自动从nesstar网页下载

时间:2018-10-13 20:48:16

标签: r rvest rcurl httr

我正在编写脚本,以脚本的形式从R and Survey Center for Survey and Survey / Registrar data,这个基于nesstar的数据存档:http://cssr.surveybank.aau.dk/webview

随便看看,我发现每种格式的数据集都有可收藏的链接,例如http://cssr.surveybank.aau.dk/webview/velocity?format=STATA&includeDocumentation=on&execute=&ddiformat=pdf&study=http%3A%2F%2F172.18.36.233%3A80%2Fobj%2FfStudy%2FElectionStudy-1973&analysismode=table&v=2&mode=download

使用该网站不需要用户名或密码,因此这只是一个子弹。但是下一步是单击“下载”按钮,这就是我的困惑。这个问题Using R to "click" a download file button on a webpage听起来应该正确,但是此网页实际上并不相似。与那个按钮不同的是,该按钮不是表单的一部分,因此我使用html_form()submit_form()所做的努力可谓无济于事。 (而且它不是一个链接,因此follow_link()当然也不起作用。)以下内容将我带到正确的节点,但实际上并未单击该按钮。

library(magrittr)
library(rvest)

url <- "http://cssr.surveybank.aau.dk/webview/velocity?format=STATA&includeDocumentation=on&execute=&ddiformat=pdf&study=http%3A%2F%2F172.18.36.233%3A80%2Fobj%2FfStudy%2FElectionStudy-1973&analysismode=table&v=2&mode=download"
s <- html_session(url)
download_button <- s %>% html_node(".button")

现在,RSelenium又回到了CRAN上(是!),我想我可以朝那个方向发展,但是我真的更喜欢基于rvesthttr的解决方案。如果有人可以帮忙,我将非常感激。

0 个答案:

没有答案