如何在nutch中合并两个crawldb

时间:2013-04-02 17:23:43

标签: search-engine web-crawler nutch

假设我有两台使用nutch抓取两个不同域的不同机器。

现在我想将他们的crawldb合并为一个。我怎么能这样做?

我在某处读到了它 - 命令:

bin/nutch mergedb <crawldb1> <crawldb2>

做我打算做的事情?

此外,如果我们说其中一个crawldb是由本地托管网站的网站生成的,即维基百科自行抓取并将其存储为crawldb1

和其他一些网站让我们说stackoverflow也做了同样的事情。

在这种情况下,我可以将这两个crawldb合并为一个但是会以某种方式修改它们以反映它们的实际URL而不是相对的url(我的意思是数据库的新位置的URL)。

很抱歉,如果我在说明中不是很清楚。提前致谢

2 个答案:

答案 0 :(得分:0)

只有一种方法可以找出它是否有效,试一试。首先阅读手册,你错过了合并的数据库参数。见http://wiki.apache.org/nutch/bin/nutch%20mergedb

答案 1 :(得分:0)

您可以合并两个db,其中crawldb中的所有URL始终存储完整。 Nutch从不存储相对于任何东西的URL。

您编写的命令会将crawldb2合并到crawldb1

如果要合并crawldb localcrawldb和stackoverflowcrawldb

你写了

bin / nutch crawldb mergedcrawldb localcrawldb stackoverflowcrawldb

并且两个crawldbs将合并到mergedcrawldb。