跳过包含某些字符的URL作为可能的查询等

Question

我正在使用apache nutch-1.5.1版本和solr 3.6.2与hadoop 1.0.3集成。我想抓取域名，例如“www.my-website.com”，有不同的页面 1. www.my-website.com/page.1 2. www.my-website.com/page.2 .. www.my-website.com/page.1有很多信息，如（www.my-website.com/page.1/search?page=2&tab=relevance&q=222）我无法抓取这个链接类型（包含特殊的字符（？，=））.. 我在regex.urlfilter.txt评论

跳过包含某些字符的URL作为可能的查询等

- [？！* @ =] ..

。但仍然没有输出的差异....请分享你的想法提前致谢 Jaipal R

Answer 1

看一下crawl-urlfilter.txt。有一个类似的条目，如果真的想要抓取这些网址，也应该注释。

# skip URLs containing certain characters as probable queries, etc.
-[?*!@=]

要小心，否则你可能会在无限循环的情况下结束，例如永远不会结束的分页。

您应该添加例外而不是更改规则。

   +www.my-website.com/page.*
   # skip URLs containing certain characters as probable queries, etc. 
   -[?*!@=]

在nutch中启用具有特殊字符的抓取网址

跳过包含某些字符的URL作为可能的查询等

- [？！* @ =] ..

1 个答案: