经过多次搜索,似乎没有任何关于如何将Nutch 1.3与Solr一起使用的直接解释。
我有一个Solr索引,其中包含其他内容,我将在网站上进行搜索。
我想将Nutch结果添加到索引中,这会将外部网站添加到网站的搜索中。
所有这一切都很好。
问题是,你如何刷新指数?你必须首先删除Solr的所有Nutch结果吗?或者Nutch会照顾到这个吗? Nutch是否会从Solr索引中删除不再有效的结果?
没有文档或解释他们正在做什么的Shell脚本对回答这些问题没有帮助。
答案 0 :(得分:0)
nutch模式将id(= url)定义为teh唯一键。如果你重新抓取url,当nutch将数据发布到solr时,文档将被替换为solr索引。
答案 1 :(得分:0)
你需要在Nutch中实现增量爬行......这取决于你的应用程序。有些人希望每天重新抓取,其他人每3个月重新抓一次。无论如何,最长为90天。
一般的想法是删除早于重新抓取的最长时间的抓取细分,因为那时它们将是多余的。并生成一个新的solrindex
用于Solr。
我担心你必须自己编写脚本。有一天,我可能会在wiki上添加一些我为此做过的脚本,但是它们还没有准备好发布。
答案 2 :(得分:-1)
尝试使用Lucidworks的企业级Solr进行测试/原型设计,其中内置了一个webcrawler。
http://www.lucidimagination.com/products/lucidworks-search-platform/enterprise
它会让你感受整个Lucene堆栈。它比我用过的任何其他Java软件都有更好的界面。使用起来很愉快。