假设我有两台使用nutch抓取两个不同域的不同机器。
现在我想将他们的crawldb合并为一个。我怎么能这样做?
我在某处读到了它 - 命令:
bin/nutch mergedb <crawldb1> <crawldb2>
做我打算做的事情?
此外,如果我们说其中一个crawldb是由本地托管网站的网站生成的,即维基百科自行抓取并将其存储为crawldb1
和其他一些网站让我们说stackoverflow也做了同样的事情。
在这种情况下,我可以将这两个crawldb合并为一个但是会以某种方式修改它们以反映它们的实际URL而不是相对的url(我的意思是数据库的新位置的URL)。
很抱歉,如果我在说明中不是很清楚。提前致谢
答案 0 :(得分:0)
只有一种方法可以找出它是否有效,试一试。首先阅读手册,你错过了合并的数据库参数。见http://wiki.apache.org/nutch/bin/nutch%20mergedb
答案 1 :(得分:0)
您可以合并两个db,其中crawldb中的所有URL始终存储完整。 Nutch从不存储相对于任何东西的URL。
您编写的命令会将crawldb2合并到crawldb1
如果要合并crawldb localcrawldb和stackoverflowcrawldb
你写了bin / nutch crawldb mergedcrawldb localcrawldb stackoverflowcrawldb
并且两个crawldbs将合并到mergedcrawldb。