需要建议使用Map / Reduce创建solr索引

时间:2012-05-18 03:40:41

标签: solr amazon-s3 mapreduce elastic-map-reduce emr

我是Map / Reduce世界的新手,并试图评估最佳选项,以确定我是否可以利用它在Solr中创建索引。目前,我正在使用常规爬网来获取数据并直接在Solr中对其进行索引。这没有任何问题。

但是,我们需要访问驻留在Amazon S3中的大量数据。目前存储在S3中的大约500万个数据需要被索引。我正在考虑使用Amazon Elastic Map / Reduce(EMR)直接从S3访问内容,然后在Solr中创建索引。数据结构很简单,url(唯一的)是S3键,值是XML文件。该URL将用作Solr中的doc id,而XML数据的相关部分将作为字段存储在Solr索引中。

我的问题是EMR是否是正确的方法?任务是从S3访问数据,从XML中提取某些元素,进行一些处理,然后调用Solr API来生成索引。在索引数据之前,处理部分需要很少的类,可能是一串命令模式。这是可以实现的吗? Doo我需要减速器还是可以使用映射器来完成这个过程?如果需要减速机,它的范围是什么?目前,我有一个存储数据的索引。

对此的任何指示都将受到高度赞赏。

由于

1 个答案:

答案 0 :(得分:0)

您可以尝试使用MapReduceIndexer工具。 你可以从apache-sole下载它。 它是contrib模块的一部分。