Question

我创建了一个独立的链接抓取工具脚本，用于使用以下脚本http://phpcrawl.cuab.de/example.html在网站中查找损坏的链接。

它可以抓取链接。但它也检查外部链接及其内容页面网址。但是这个过程不需要只检查内部链接，内部链接的内容页面url和外部链接。不想检查外部链接内容页面网址。所以我需要禁用外部链接的内容页面url及其imge src的检查。只检查外部链接是否坏了。不要检查该链接的内容页面网址。

Answer 1

如果你阅读了你正在使用的框架的文档，你会发现addURLFollowRule（）方法可以强制爬虫只遵循特定的URL模式。

将此添加到您的代码中并应用正确的REGEX模式以匹配您的内部URL：

$crawler->addURLFollowRule("#https?://internal/.*# i");

Answer 2

..或者只是使用setFollowMode（） - settings之一：

E.g。 $ crawler-＆GT; setFollowMode（2）; // Cralwer留在主持人