我们正在使用solr进行一些poc,我们正在考虑的其中一条路径是首次使用lucene对数据集进行索引。然后让solr读取此索引以及任何后续使用solr的较小索引。 理性的是,solr,一个Web服务器必须通过http传输这个数据集,这可能是一个瓶颈。 数据集大小约为500GB。不仅仅是如何解决这个问题,我很想知道我们是否应该尝试这样做。
感谢您的时间。
答案 0 :(得分:0)
如果你在Solr上做POC,那么你应该使用Solr本身进行索引,这样你就可以找到更多关于Solr的信息,它减少了你必须编写java代码的索引任务。如果您想提高相关性,那么您可以使用lucene实现自定义插件,然后将其部署在Solr中。
如果您使用lucene进行索引,那么它就足够快了,但是对于大型数据集,会出现各种各样的事情,如高可用性,性能等。
所以我建议你在独立和Solrcloud模式下使用Solr进行索引,然后你可以比较你想采用的方法。