Nutch - 首先抓取域名

时间:2013-03-24 10:46:20

标签: url web-crawler nutch

我是Nutch的新手并且我非常努力让它做一些特定的爬行,即我希望它首先使用一个特定的域(例如维基百科)进行3级深度 - 这部分可以通过修改正则表达式来实现-urlfilter文件。

但是我希望它开始抓取之前获取的所有外部链接,但只有1级深度。

所以,我的问题是,有没有办法从首次运行中获取已爬网链接的列表,以便它们可以用作第二次爬网的种子?

1 个答案:

答案 0 :(得分:2)

您可以使用以下命令获取已抓取网址的列表:

bin/nutch readdb crawl/crawldb -dump file

然后,您可以使用该命令的输出手动编辑urls / seed.txt文件。