如何填写在线表格并在R中获得结果

时间:2013-01-09 14:17:36

标签: xml r forms web-scraping rselenium

有没有人从R远程填写网络表单?

我想用我的分数在R中做一些射箭统计。有一个非常方便的网页,为您提供分类和障碍http://www.archersmate.co.uk/,我自然希望将其纳入我的统计表。

是否可以远程填写此表单并将结果返回给R ???

否则我必须自己获取所有差点表并将其粘贴到数据库中。

更新: 我们已经将问题缩小到了这样一个事实,即表单提交按钮是用javascript编写的。

4 个答案:

答案 0 :(得分:9)

您可以使用RSelenium包填写并提交网络表单并检索结果。

以下使用RSelenium的代码将下载示例输入数据(男性,18岁以下,长弓,布里斯托尔V,500):

library(RSelenium)

# Start Selenium Server --------------------------------------------------------

checkForServer()
startServer()
remDrv <- remoteDriver()
remDrv$open()


# Simulate browser session and fill out form -----------------------------------

remDrv$navigate('http://www.archersmate.co.uk/')
remDrv$findElement(using = "xpath", "//input[@value = 'Male']")$clickElement()
Sys.sleep(2) 
remDrv$findElement(using = "xpath", "//select[@id = 'drpAge']/option[@value = 'Under 18']")$clickElement()
remDrv$findElement(using = "xpath", "//input[@value ='Longbow']")$clickElement() 
remDrv$findElement(using = "xpath", "//select[@id = 'rnd']/option[@value = 'Bristol V']")$clickElement()
remDrv$findElement(using = "xpath", "//input[@id ='scr']")$sendKeysToElement(list('5', '0', '0'))
remDrv$findElement(using = "xpath", "//input[@id = 'cmdCalc']")$clickElement()

# Retrieve and download results injecting javascript ---------------------------

Sys.sleep(2)
clsf <- remDrv$executeScript(script = 'return $("#txtClass").val();', args = list())[[1]]
hndcp <- remDrv$executeScript(script = 'return $("#txtHandicap").val();', args = list())[[1]]

remDrv$quit()
remDrv$closeServer()

RSelenium的默认浏览器是Firefox。但是,RSelenium甚至支持使用PhantomJS进行无头浏览。要利用PhanomJS,您只需要

  • download PhantomJS并将其放在用户路径中
  • 在开头和结尾替换代码片段,如下所述

默认浏览(如上所示):

checkForServer()
startServer()
remDrv <- remoteDriver()

...

remDrv$quit()
remDrv$closeServer()

无头浏览:

pJS <- phantom()
remDrv <- remoteDriver(browserName = 'phantomjs')

...

remDrv$close()
pJS$stop()

答案 1 :(得分:0)

你可能想看看Rcurl的postForm here,还有一个很好的教程here

答案 2 :(得分:0)

这可能对您没有帮助,因为我正在寻找类似问题的答案,但是查看您想要抓取的网址,要填写的表格是实际的HTML表单,您可以通过以下方式获取说明: / p>

url <- "http://www.archersmate.co.uk/"
forms <- getHTMLFormDescription(url)

另请查看包&#34; RHTMLForms&#34;在omegahat.org上

答案 3 :(得分:0)

这不能在RCurl中完成,因为表单会触发ajax事件,因此postForm函数是不够的。