我是Nutch的新手并不确定这里发生了什么。我运行nutch并抓取我的网站,但它似乎忽略了包含查询字符串的URL。我在crawl-urlfilter.txt页面中注释掉了这个过滤器,所以它现在看起来像这样:
# skip urls with these characters
#-[]
#skip urls with slash delimited segment that repeats 3+ times
#-.*(/[^/]+)/[^/]+\1/[^/]+\1/
所以,我认为我已经有效地删除了任何过滤器,所以我告诉nutch接受它在我的网站上找到的所有网址。
有没有人有任何建议?或者这是nutch 1.2中的一个错误?我应该升级到1.3,这将解决我遇到的这个问题吗?或者我做错了什么?
答案 0 :(得分:2)
请在此处查看我之前的问题Adding URL parameter to Nutch/Solr index and search results
第一个'编辑'应该回答你的问题。
答案 1 :(得分:2)
# skip URLs containing certain characters as probable queries, etc.
#-[?*!@=]
您必须对其进行评论或将其修改为:
# skip URLs containing certain characters as probable queries, etc.
-[*!@]
答案 2 :(得分:0)
默认情况下,抓取工具不应抓取带有查询字符串的链接,以避免使用垃圾邮件和虚假搜索引擎。