我正在使用apache nutch-1.5.1版本和solr 3.6.2与hadoop 1.0.3集成。 我想抓取域名,例如“www.my-website.com”,有不同的页面 1. www.my-website.com/page.1 2. www.my-website.com/page.2 .. www.my-website.com/page.1有很多信息,如(www.my-website.com/page.1/search?page=2&tab=relevance&q=222)我无法抓取这个链接类型(包含特殊的字符(?,=)).. 我在regex.urlfilter.txt评论
跳过包含某些字符的URL作为可能的查询等
- [?!* @ =] ..
。 但仍然没有输出的差异....请分享你的想法 提前致谢 Jaipal R
答案 0 :(得分:0)
看一下crawl-urlfilter.txt。 有一个类似的条目,如果真的想要抓取这些网址,也应该注释。
# skip URLs containing certain characters as probable queries, etc.
-[?*!@=]
要小心,否则你可能会在无限循环的情况下结束,例如永远不会结束的分页。
您应该添加例外而不是更改规则。
+www.my-website.com/page.*
# skip URLs containing certain characters as probable queries, etc.
-[?*!@=]