禁用外部链接的页面URL检查PHP链接爬虫

时间:2014-04-10 12:12:47

标签: php web-crawler

我创建了一个独立的链接抓取工具脚本,用于使用以下脚本http://phpcrawl.cuab.de/example.html在网站中查找损坏的链接。

它可以抓取链接。但它也检查外部链接及其内容页面网址。但是这个过程不需要只检查内部链接,内部链接的内容页面url和外部链接。不想检查外部链接内容页面网址。 所以我需要禁用外部链接的内容页面url及其imge src的检查。 只检查外部链接是否坏了。不要检查该链接的内容页面网址。

2 个答案:

答案 0 :(得分:0)

如果你阅读了你正在使用的框架的文档,你会发现addURLFollowRule()方法可以强制爬虫只遵循特定的URL模式。

将此添加到您的代码中并应用正确的REGEX模式以匹配您的内部URL:

$crawler->addURLFollowRule("#https?://internal/.*# i");

文档:http://phpcrawl.cuab.de/classreferences/PHPCrawler/method_detail_tpl_method_addURLFollowRule.htm

答案 1 :(得分:0)

..或者只是使用setFollowMode() - settings之一:

http://phpcrawl.cuab.de/classreferences/PHPCrawler/method_detail_tpl_method_setFollowMode.htm

E.g。 $ crawler-> setFollowMode(2); // Cralwer留在主持人