我目前正在开展网络存档项目。基本上,我们尝试做的是归档一组网站(使用 heritrix crawler ),并通过Web界面提供对归档内容的访问。
我们还提供整个档案的全文搜索。目前,索引是使用 nutchwax (由 heritrix 生成的定制版本的apache Nutch,为索引.warc
文件量身定制)生成的。 Nutchwax转储出Lucene索引并在Solr中使用它,所有必须做的就是生成一个正确的模式。
这一切都已完成并且它的运行应该如此,但归档不是静态的,并且定期生成新的.warc
文件。
我现在可以做的是生成一个新索引,将其与现有索引合并,然后将其导入Solr。但是,要做到这一点,Solr必须重新启动。 如果索引可以“动态”更新会很好,因为通常就是这种情况(通过http请求更新索引时)
有没有人有这个想法,怎么做?我的第一个镜头是从Lucene索引文件生成.xml
文件并将它们发布到Solr。这值得一试还是有更优雅的解决方案?
答案 0 :(得分:1)
您可以利用多个核心来完成您的需求。有关详细信息,请参阅Solr Wiki - CoreAdmin。我认为您可以利用MergeIndexes功能或Swap内核的功能,在您的方案中获得更好的体验。