我正在使用Nutch抓取webistes,奇怪的是我的一个网站,Nutch抓取只返回两个网址,主页网址(http://mysite.com/)和另一个。
我的网站上的网址基本上是这种格式
http://mysite.com/index.php?main_page=index¶ms=12
http://mysite.com/index.php?main_page=index&category=tub¶m=17
即。网址仅在引用网址的参数方面有所不同(部分“http://mysite.com/index.php?”对所有网址都是通用的)
Nutch是否无法抓取此类网站?
为了抓取此类网站,我应该采取哪些Nutch设置?
答案 0 :(得分:1)
我解决了这个问题。 它与设置为
的网址过滤器有关- [?!* @ =]
我评论了这个过滤器和Nutch抓取dall网址:)