我通过文本挖掘一些PDF文档提取了一堆URL。现在我想测试URLS的有效性。某些网址内部或附加了垃圾字符,或者URLS被截断。一种方法是通过调用它们来过滤它们。
为此,我使用RCurl包中的url.exists()
函数。该函数使用curl对URL进行HTTP HEAD请求,并检查状态代码。
来自?url.exists
If ‘.header’ is ‘FALSE’, this returns ‘TRUE’ or ‘FALSE’ indicating
whether the request was successful (had a status with a value in
the 200 range).
如何为发出重定向的网址返回TRUE?重定向状态代码在300范围内。它们并非真正的错误。
还是有更好的方法吗?抓取实际状态代码并手动处理它们?我应该在这里使用系统命令吗?