如何在R中刮取受密码保护的网站?

时间:2014-10-08 21:21:21

标签: r login screen-scraping

我已经阅读了关于这个确切主题的7或8个SO帖子,但是a)我仍然不知道如何登录我的目标网站,以及b)我看不到SO帖子回答了我的2个问题下方。

这是我的尝试:

library(httr)
handle <- handle("http://dominogirl.co.uk/authentication?back=my-account") 
login <- list(email = 'myusername', passwd  = 'mypassword')
response <- POST(handle = handle, body = login)

问题:

1)如何确定登录表单需要哪些字段?我认为这些字段是“电子邮件”和“密码”来自浏览登录页面上的源代码,但这种方法看起来有点粗糙 - 是否有更好的方法来识别表单所需的字段?

2)我如何知道登录是否成功?网站是否有一些回复告诉我这个?或者我只是必须开始刮,看看会有什么回来?

非常感谢任何指导

0 个答案:

没有答案