应用错误收集

在Hadoop上运行Lucene / Solr的最佳方法是什么？

时间：2011-06-01 13:19:29

标签： lucene solr hadoop mapreduce elastic-map-reduce

我们在具有1TB EBS卷的Amazon Web Services EC2实例上运行Solr来存储索引，以便我们可以轻松启动具有相同（只读）索引的其他服务器。但是，我们的索引很快就会超过1TB，我真的不想处理多个EBS卷来保存索引。此外，重新生成索引非常慢。我想将索引生成 - 也许托管 - 移动到Hadoop，最好是亚马逊的Elastic MapReduce，尽管我可以根据需要设置单独的Hadoop服务器。我们使用RightScale，因此我们可以使用他们的ServerTemplates库。

在Hadoop上使用Lucene / Solr的最佳位置是什么？

2 个答案:

答案 0 :(得分：1)

看看ElasticSearch。您可以从Hadoop索引到ElasticSearch以进行批量加载。 Infochimps开源了一个名为Wonderdog的ElasticSearch批量索引器，您可以查看它以获得概念验证。

https://github.com/infochimps/wonderdog http://www.elasticsearch.com

它是云友好的（请参阅用于发现的cloud-aws插件），并且可以通过添加节点来扩展/缩小以保存索引。

答案 1 :(得分：1)

您的索引是否已分片？您可以对索引进行分片并在多个实例之间分配分片。