如何避免"太多的重定向"在R中使用readLines(url)时出错?

时间:2014-08-01 18:10:47

标签: r url text-mining

我试图通过

来从各种来源挖掘新闻文章
site = readLines(link)

链接是我试图下载的网站的网址。大多数情况下这是有效的,但有一些特定的来源我得到错误:

Error in file(con, "r") : cannot open the connection
In addition: Warning message:
In file(con, "r") : too many redirects, aborting ...

我想避免这样做,但到目前为止,我没有成功。

复制这一点非常简单,因为“纽约时报”几乎没有任何链接工作

e.g。 http://www.nytimes.com/2014/08/01/us/politics/african-leaders-coming-to-talk-business-may-also-be-pressed-on-rights.html

1 个答案:

答案 0 :(得分:2)

似乎NYT网站强制重定向cookie和跟踪目的。看起来内置的URL阅读器无法正确处理它们(不确定它是否支持可能存在问题的cookie)。

无论如何,您可以考虑使用RCurl包来访问该文件。尝试

library(RCurl)
link  = "http://www.nytimes.com/2014/08/01/us/politics/african-leaders-coming-to-talk-business-may-also-be-pressed-on-rights.html?_r=0"

site <- getURL(link, .opts = curlOptions(
    cookiejar="",  useragent = "Mozilla/5.0", followlocation = TRUE
))