Question

我试图通过

来从各种来源挖掘新闻文章

site = readLines(link)

链接是我试图下载的网站的网址。大多数情况下这是有效的，但有一些特定的来源我得到错误：

Error in file(con, "r") : cannot open the connection
In addition: Warning message:
In file(con, "r") : too many redirects, aborting ...

我想避免这样做，但到目前为止，我没有成功。

复制这一点非常简单，因为“纽约时报”几乎没有任何链接工作

e.g。 http://www.nytimes.com/2014/08/01/us/politics/african-leaders-coming-to-talk-business-may-also-be-pressed-on-rights.html

Answer 1

似乎NYT网站强制重定向cookie和跟踪目的。看起来内置的URL阅读器无法正确处理它们（不确定它是否支持可能存在问题的cookie）。

无论如何，您可以考虑使用RCurl包来访问该文件。尝试

library(RCurl)
link  = "http://www.nytimes.com/2014/08/01/us/politics/african-leaders-coming-to-talk-business-may-also-be-pressed-on-rights.html?_r=0"

site <- getURL(link, .opts = curlOptions(
    cookiejar="",  useragent = "Mozilla/5.0", followlocation = TRUE
))

如何避免＆＃34;太多的重定向＆＃34;在R中使用readLines（url）时出错？

1 个答案: