简单的Nutch 1.3 / Solr索引解释

时间:2011-09-14 21:04:07

标签: solr nutch

经过多次搜索,似乎没有任何关于如何将Nutch 1.3与Solr一起使用的直接解释。

我有一个Solr索引,其中包含其他内容,我将在网站上进行搜索。

我想将Nutch结果添加到索引中,这会将外部网站添加到网站的搜索中。

所有这一切都很好。

问题是,你如何刷新指数?你必须首先删除Solr的所有Nutch结果吗?或者Nutch会照顾到这个吗? Nutch是否会从Solr索引中删除不再有效的结果?

没有文档或解释他们正在做什么的Shell脚本对回答这些问题没有帮助。

3 个答案:

答案 0 :(得分:0)

nutch模式将id(= url)定义为teh唯一键。如果你重新抓取url,当nutch将数据发布到solr时,文档将被替换为solr索引。

答案 1 :(得分:0)

你需要在Nutch中实现增量爬行......这取决于你的应用程序。有些人希望每天重新抓取,其他人每3个月重新抓一次。无论如何,最长为90天。

一般的想法是删除早于重新抓取的最长时间的抓取细分,因为那时它们将是多余的。并生成一个新的solrindex用于Solr。

我担心你必须自己编写脚本。有一天,我可能会在wiki上添加一些我为此做过的脚本,但是它们还没有准备好发布。

答案 2 :(得分:-1)

尝试使用Lucidworks的企业级Solr进行测试/原型设计,其中内置了一个webcrawler。

http://www.lucidimagination.com/products/lucidworks-search-platform/enterprise

它会让你感受整个Lucene堆栈。它比我用过的任何其他Java软件都有更好的界面。使用起来很愉快。