Question

我正在尝试通过R发布登录表单，以便我可以运行一些网页抓取（除非我登录，否则无法使用）。我以为我已经完成了所有工作，但每当我尝试访问登录页面以外的页面时，它都会一直返回到登录页面（即帖子表单不起作用或者它没有识别出我已经登录）。这可能归结为饼干吗？

这是我到目前为止使用的rcurl：

loginurl = "https://shop.supervalu.ie/shopping/StartShopping/login.aspx"
dataurl = "https://shop.supervalu.ie/shopping/shopping/shop.aspx?catid=150300005&PDEPTID=8"

pars=list(
   `ctl00$ctl00$cphContent$cphMain$ucntrlLogin$txtEmailAddress` = "email",
   `ctl00$ctl00$cphContent$cphMain$ucntrlLogin$txtPassword` = "password",
   `ctl00$ctl00$cphContent$cphMain$ucntrlLogin$btnLogin` = "LOGIN"
) 

agent="Mozilla/5.0"

curl = getCurlHandle()
curlSetOpt(cookiejar="cookies.txt",  useragent = agent, followlocation = TRUE, curl=curl)

html=postForm(loginurl, .params = pars, curl = curl)

html=getURL(dataurl, curl=curl)

R - 使用https登录表单进行Web Scraping

0 个答案: