我正在使用Apache Nutch 1.7,我使用URL http://www.ebay.com/sch/allcategories/all-categories/?_rdc=1作为种子URL进行抓取时遇到此问题,此URL在页面中有许多内部链接,并且还有许多指向其他域的外部链接,我只对内部链接感兴趣。
然而,当抓取此页面时,其中的内部链接不会被添加以在下一轮抓取中获取(我已经给出了100的深度)。我已经将db.ignore.internal.links设置为false,但由于某种原因,内部链接没有被添加到下一轮获取列表中。
另一方面,如果我将db.ignore.external.links设置为false,它会正确地从页面中选取所有外部链接。
此问题在任何其他域中都不存在,有人可以告诉我这个特定页面的含义是什么吗?
我还附上了我用于审核的nucth-site.xml,请提供建议。
答案 0 :(得分:2)
默认过滤器会忽略您的种子网址,因此您的网页未被抓取。
编辑以下文件:
CONF /自动机urlfilter.txt
CONF /正则表达式-urlfilter.txt
替换
# skip URLs containing certain characters as probable queries, etc.
-.*[?*!@=].*
使用
# skip URLs containing certain characters as probable queries, etc.
-.*[*!@].*