我已查找有关此问题的信息(例如此处:Scrape password-protected website in R和与之相关联的主题)但我无法解决我的特定网站的怪癖。
我想使用受密码保护的网站http://www.footballdatabase.eu/。登录后,我会导航到一个网页开始抓取。我已按如下方式设置代码:
url <- "http://www.footballdatabase.eu"
login <- list(login = "username", password = "password")
response <- POST(url = url, body = login)
然后我会通过输入新链接设置导航到网页:
link <- "http://www.footballdatabase.eu/football.match.cagliari.ac-milan.1141156.en.html"
doc <- htmlParse(link, encoding = "UTF-8")
table <- readHTMLTable(doc)
然后我会从表中获取信息。
我希望这样设置,以便理论上我可以在登录一次后循环访问多个网页,或者登录每个团队(如果这样更方便)。目前我从响应中得到以下输出:
回应[http://www.footballdatabase.eu/]
日期:2017-05-31 01:03
状态:200
内容类型:text / html
大小:2.17 kB
您已超出当天访问过的网页数量。请登录或登录。
感谢您的帮助!