应用错误收集

我通过文本挖掘一些PDF文档提取了一堆URL。现在我想测试URLS的有效性。某些网址内部或附加了垃圾字符，或者URLS被截断。一种方法是通过调用它们来过滤它们。

为此，我使用RCurl包中的url.exists()函数。该函数使用curl对URL进行HTTP HEAD请求，并检查状态代码。

来自?url.exists

的文档

 If ‘.header’ is ‘FALSE’, this returns ‘TRUE’ or ‘FALSE’ indicating
 whether the request was successful (had a status with a value in
 the 200 range).

如何为发出重定向的网址返回TRUE？重定向状态代码在300范围内。它们并非真正的错误。

还是有更好的方法吗？抓取实际状态代码并手动处理它们？我应该在这里使用系统命令吗？

RCurl :: url.exists（）：如何为重定向获取非错误（在300个HTTP状态代码范围内）

0 个答案: