Apache Nutch没有在网页中添加内部链接到fetchlist

时间:2013-10-15 05:13:05

标签: web-crawler nutch

我正在使用Apache Nutch 1.7,我使用URL http://www.ebay.com/sch/allcategories/all-categories/?_rdc=1作为种子URL进行抓取时遇到此问题,此URL在页面中有许多内部链接,并且还有许多指向其他域的外部链接,我只对内部链接感兴趣。

然而,当抓取此页面时,其中的内部链接不会被添加以在下一轮抓取中获取(我已经给出了100的深度)。我已经将db.ignore.internal.links设置为false,但由于某种原因,内部链接没有被添加到下一轮获取列表中。

另一方面,如果我将db.ignore.external.links设置为false,它会正确地从页面中选取所有外部链接。

此问题在任何其他域中都不存在,有人可以告诉我这个特定页面的含义是什么吗?

我还附上了我用于审核的nucth-site.xml,请提供建议。

1 个答案:

答案 0 :(得分:2)

默认过滤器会忽略您的种子网址,因此您的网页未被抓取。

编辑以下文件:

CONF /自动机urlfilter.txt

CONF /正则表达式-urlfilter.txt

替换

# skip URLs containing certain characters as probable queries, etc.
-.*[?*!@=].*

使用

# skip URLs containing certain characters as probable queries, etc.
-.*[*!@].*