在Hadoop上运行Lucene / Solr的最佳方法是什么?

时间:2011-06-01 13:19:29

标签: lucene solr hadoop mapreduce elastic-map-reduce

我们在具有1TB EBS卷的Amazon Web Services EC2实例上运行Solr来存储索引,以便我们可以轻松启动具有相同(只读)索引的其他服务器。但是,我们的索引很快就会超过1TB,我真的不想处理多个EBS卷来保存索引。此外,重新生成索引非常慢。我想将索引生成 - 也许托管 - 移动到Hadoop,最好是亚马逊的Elastic MapReduce,尽管我可以根据需要设置单独的Hadoop服务器。我们使用RightScale,因此我们可以使用他们的ServerTemplates库。

在Hadoop上使用Lucene / Solr的最佳位置是什么?

2 个答案:

答案 0 :(得分:1)

看看ElasticSearch。您可以从Hadoop索引到ElasticSearch以进行批量加载。 Infochimps开源了一个名为Wonderdog的ElasticSearch批量索引器,您可以查看它以获得概念验证。

https://github.com/infochimps/wonderdog http://www.elasticsearch.com

它是云友好的(请参阅用于发现的cloud-aws插件),并且可以通过添加节点来扩展/缩小以保存索引。

答案 1 :(得分:1)

您的索引是否已分片?您可以对索引进行分片并在多个实例之间分配分片。