重定向URL时的R抓取(302)

时间:2015-03-05 19:38:08

标签: r redirect rcurl scraper

R相关问题,我对R

很新

我正在电影数据库上运行一个刮刀,但至少有一个网址被重定向到另一个网页。

您是否知道如何关注网址并改为重定向网站。

我使用此方法获取XML

require(XML) 
require(RCurl) 
fixedURL <- getURL("https://www.themoviedb.org/movie/260346-taken-3/cast")
parsed.html <- htmlParse(fixedURL)

如果有帮助,也可以使用scrapeR包。

但网址被重定向(302)到&#34; https://www.themoviedb.org/movie/260346-tak3n/cast&#34; 任何想法如何使它遵循重定向? (它是循环的一部分,重定向非常少。)

1 个答案:

答案 0 :(得分:1)

rvest包似乎落在正确的页面上......

library("rvest")
url <- "https://www.themoviedb.org/movie/260346-taken-3/cast"
# get movie title
url %>% 
  html() %>% 
  html_nodes("#mainCol :nth-child(1) :nth-child(1) :nth-child(1) :nth-child(1)") %>%
  html_text()

[1] "Taken 3"