PHPCrawl:使用?query =排除网址和

时间:2011-05-13 15:51:40

标签: php web-crawler

我正在玩PHPCrawl,我想知道是否有人知道是否可以通过参数(如果它们是.html或.php)来抓取所有URLS,如

domain.com/article.html?showComment=1289420017718

2 个答案:

答案 0 :(得分:2)

为包含问号的任何网址添加非跟随匹配模式:

$crawler->addNonFollowMatch(".*\?.*")

答案 1 :(得分:1)

我发现自己的效果更好

$crawler->addNonFollowMatch("/\?/");