我试图通过
来从各种来源挖掘新闻文章site = readLines(link)
链接是我试图下载的网站的网址。大多数情况下这是有效的,但有一些特定的来源我得到错误:
Error in file(con, "r") : cannot open the connection
In addition: Warning message:
In file(con, "r") : too many redirects, aborting ...
我想避免这样做,但到目前为止,我没有成功。
复制这一点非常简单,因为“纽约时报”几乎没有任何链接工作
答案 0 :(得分:2)
似乎NYT网站强制重定向cookie和跟踪目的。看起来内置的URL阅读器无法正确处理它们(不确定它是否支持可能存在问题的cookie)。
无论如何,您可以考虑使用RCurl
包来访问该文件。尝试
library(RCurl)
link = "http://www.nytimes.com/2014/08/01/us/politics/african-leaders-coming-to-talk-business-may-also-be-pressed-on-rights.html?_r=0"
site <- getURL(link, .opts = curlOptions(
cookiejar="", useragent = "Mozilla/5.0", followlocation = TRUE
))