R - 使用https登录表单进行Web Scraping

时间:2015-07-30 11:41:03

标签: r login web-scraping

我正在尝试通过R发布登录表单,以便我可以运行一些网页抓取(除非我登录,否则无法使用)。我以为我已经完成了所有工作,但每当我尝试访问登录页面以外的页面时,它都会一直返回到登录页面(即帖子表单不起作用或者它没有识别出我已经登录)。这可能归结为饼干吗?

这是我到目前为止使用的rcurl

loginurl = "https://shop.supervalu.ie/shopping/StartShopping/login.aspx"
dataurl = "https://shop.supervalu.ie/shopping/shopping/shop.aspx?catid=150300005&PDEPTID=8"

pars=list(
   `ctl00$ctl00$cphContent$cphMain$ucntrlLogin$txtEmailAddress` = "email",
   `ctl00$ctl00$cphContent$cphMain$ucntrlLogin$txtPassword` = "password",
   `ctl00$ctl00$cphContent$cphMain$ucntrlLogin$btnLogin` = "LOGIN"
) 

agent="Mozilla/5.0"

curl = getCurlHandle()
curlSetOpt(cookiejar="cookies.txt",  useragent = agent, followlocation = TRUE, curl=curl)

html=postForm(loginurl, .params = pars, curl = curl)

html=getURL(dataurl, curl=curl)

0 个答案:

没有答案