我创建了一个独立的链接抓取工具脚本,用于使用以下脚本http://phpcrawl.cuab.de/example.html在网站中查找损坏的链接。
它可以抓取链接。但它也检查外部链接及其内容页面网址。但是这个过程不需要只检查内部链接,内部链接的内容页面url和外部链接。不想检查外部链接内容页面网址。 所以我需要禁用外部链接的内容页面url及其imge src的检查。 只检查外部链接是否坏了。不要检查该链接的内容页面网址。
答案 0 :(得分:0)
如果你阅读了你正在使用的框架的文档,你会发现addURLFollowRule()方法可以强制爬虫只遵循特定的URL模式。
将此添加到您的代码中并应用正确的REGEX模式以匹配您的内部URL:
$crawler->addURLFollowRule("#https?://internal/.*# i");
文档:http://phpcrawl.cuab.de/classreferences/PHPCrawler/method_detail_tpl_method_addURLFollowRule.htm
答案 1 :(得分:0)
..或者只是使用setFollowMode() - settings之一:
http://phpcrawl.cuab.de/classreferences/PHPCrawler/method_detail_tpl_method_setFollowMode.htm
E.g。 $ crawler-> setFollowMode(2); // Cralwer留在主持人