在nutch中启用具有特殊字符的抓取网址

时间:2013-04-01 11:50:13

标签: solr nutch

我正在使用apache nutch-1.5.1版本和solr 3.6.2与hadoop 1.0.3集成。 我想抓取域名,例如“www.my-website.com”,有不同的页面  1. www.my-website.com/page.1  2. www.my-website.com/page.2 .. www.my-website.com/page.1有很多信息,如(www.my-website.com/page.1/search?page=2&tab=relevance&q=222)我无法抓取这个链接类型(包含特殊的字符(?,=)).. 我在regex.urlfilter.txt评论

  

跳过包含某些字符的URL作为可能的查询等

     

- [?!* @ =] ..

。 但仍然没有输出的差异....请分享你的想法 提前致谢 Jaipal R

1 个答案:

答案 0 :(得分:0)

看一下crawl-urlfilter.txt。 有一个类似的条目,如果真的想要抓取这些网址,也应该注释。

# skip URLs containing certain characters as probable queries, etc.
-[?*!@=]

要小心,否则你可能会在无限循环的情况下结束,例如永远不会结束的分页。

您应该添加例外而不是更改规则。

   +www.my-website.com/page.*
   # skip URLs containing certain characters as probable queries, etc. 
   -[?*!@=]