Question

我是Nutch的新手并且我非常努力让它做一些特定的爬行，即我希望它首先使用一个特定的域（例如维基百科）进行3级深度 - 这部分可以通过修改正则表达式来实现-urlfilter文件。

但是我希望它开始抓取之前获取的所有外部链接，但只有1级深度。

所以，我的问题是，有没有办法从首次运行中获取已爬网链接的列表，以便它们可以用作第二次爬网的种子？

Answer 1

您可以使用以下命令获取已抓取网址的列表：

bin/nutch readdb crawl/crawldb -dump file

然后，您可以使用该命令的输出手动编辑urls / seed.txt文件。