RCurl :: url.exists():如何为重定向获取非错误(在300个HTTP状态代码范围内)

时间:2013-03-11 16:24:11

标签: r redirect curl error-handling rcurl

我通过文本挖掘一些PDF文档提取了一堆URL。现在我想测试URLS的有效性。某些网址内部或附加了垃圾字符,或者URLS被截断。一种方法是通过调用它们来过滤它们。

为此,我使用RCurl包中的url.exists()函数。该函数使用curl对URL进行HTTP HEAD请求,并检查状态代码。

来自?url.exists

的文档
 If ‘.header’ is ‘FALSE’, this returns ‘TRUE’ or ‘FALSE’ indicating
 whether the request was successful (had a status with a value in
 the 200 range).

如何为发出重定向的网址返回TRUE?重定向状态代码在300范围内。它们并非真正的错误。

还是有更好的方法吗?抓取实际状态代码并手动处理它们?我应该在这里使用系统命令吗?

0 个答案:

没有答案