Nutch涉及抓取网站的问题,其中网址仅在参数传递中有所不同

时间:2009-11-10 05:29:02

标签: nutch

我正在使用Nutch抓取webistes,奇怪的是我的一个网站,Nutch抓取只返回两个网址,主页网址(http://mysite.com/)和另一个。

我的网站上的网址基本上是这种格式

http://mysite.com/index.php?main_page=index&params=12

http://mysite.com/index.php?main_page=index&category=tub&param=17

即。网址仅在引用网址的参数方面有所不同(部分“http://mysite.com/index.php?”对所有网址都是通用的)

Nutch是否无法抓取此类网站?

为了抓取此类网站,我应该采取哪些Nutch设置?

1 个答案:

答案 0 :(得分:1)

我解决了这个问题。 它与设置为

的网址过滤器有关

跳过包含某些字符的URL作为可能的查询等

- [?!* @ =]

我评论了这个过滤器和Nutch抓取dall网址:)