Question

我正在使用Apache Nutch 1.7，我使用URL http://www.ebay.com/sch/allcategories/all-categories/?_rdc=1作为种子URL进行抓取时遇到此问题，此URL在页面中有许多内部链接，并且还有许多指向其他域的外部链接，我只对内部链接感兴趣。

然而，当抓取此页面时，其中的内部链接不会被添加以在下一轮抓取中获取（我已经给出了100的深度）。我已经将db.ignore.internal.links设置为false，但由于某种原因，内部链接没有被添加到下一轮获取列表中。

另一方面，如果我将db.ignore.external.links设置为false，它会正确地从页面中选取所有外部链接。

此问题在任何其他域中都不存在，有人可以告诉我这个特定页面的含义是什么吗？

我还附上了我用于审核的nucth-site.xml，请提供建议。

Answer 1

默认过滤器会忽略您的种子网址，因此您的网页未被抓取。

编辑以下文件：

CONF /自动机urlfilter.txt

CONF /正则表达式-urlfilter.txt

替换

# skip URLs containing certain characters as probable queries, etc.
-.*[?*!@=].*

使用

# skip URLs containing certain characters as probable queries, etc.
-.*[*!@].*

Apache Nutch没有在网页中添加内部链接到fetchlist

1 个答案: