Question

假设我有两台使用nutch抓取两个不同域的不同机器。

现在我想将他们的crawldb合并为一个。我怎么能这样做？

我在某处读到了它 - 命令：

bin/nutch mergedb <crawldb1> <crawldb2>

做我打算做的事情？

此外，如果我们说其中一个crawldb是由本地托管网站的网站生成的，即维基百科自行抓取并将其存储为crawldb1

和其他一些网站让我们说stackoverflow也做了同样的事情。

在这种情况下，我可以将这两个crawldb合并为一个但是会以某种方式修改它们以反映它们的实际URL而不是相对的url（我的意思是数据库的新位置的URL）。

很抱歉，如果我在说明中不是很清楚。提前致谢

Answer 1

只有一种方法可以找出它是否有效，试一试。首先阅读手册，你错过了合并的数据库参数。见http://wiki.apache.org/nutch/bin/nutch%20mergedb

Answer 2

您可以合并两个db，其中crawldb中的所有URL始终存储完整。 Nutch从不存储相对于任何东西的URL。

您编写的命令会将crawldb2合并到crawldb1

如果要合并crawldb localcrawldb和stackoverflowcrawldb

你写了

bin / nutch crawldb mergedcrawldb localcrawldb stackoverflowcrawldb

并且两个crawldbs将合并到mergedcrawldb。