R-抓取具有不同域登录名的网页

时间:2019-03-07 10:00:59

标签: r web-scraping rvest

我正在尝试访问公司网站sub.company.com上的页面,但需要登录。该页面不会自动重定向到login.company.com上的登录页面。

#login
login <- "login.company.com"
session <- html_session(login)
form <- html_form(read_html(login))[[1]]
filled_form <- set_values(form,
                          "username",
                          "password")

submit_form(session, filled_form)

以下代码是

Status: 200
  Type:   text/html; charset=utf-8
  Size:   13580

我想登录已经完成。然后,我尝试抓取我想要的页面

    url <- "sub.company.com"
    read_html(url)

Warning message:
In request_GET(x, url, ...) : Forbidden (HTTP 403).

我可以实际登录一个子域,然后请求访问另一个域吗?我真的登录了吗?系统如何将R识别为已登录的刮板?

0 个答案:

没有答案