将Solr索引与Hadoop友好格式同步

时间:2013-05-16 12:12:12

标签: hadoop solr

我想对目前存储在Solr中的数据进行推荐,聚类和分类。 Solr是我们的主要数据存储。我刚刚开始使用Mahout + Hadoop。

我认为Solr索引不是输入Mahout(或其他Hadoop作业)的友好格式;在我可以对它执行map-reduce操作之前,我必须将其转换为文本格式。也就是说,我必须在HDFS中有一个文本文件始终同步与Solr中的数据。

在Solr for Hadoop / Mahout中使用数据的好计划是什么?我应该将Solr中的更改同步到HDFS中的文件吗?


这是我计划将solr数据同步到文件的方式。对于用户X

  1. 从LATEST_TIME
  2. 获取100个文档
  3. 将这些文档转换为文本并使用文件名存储:'X_LATEST_TIMESTAMP'
  4. 将X_LATEST_TIMESTAMP与主文件合并:如果主文本文件说文档ID 123包含内容而X_LATEST_TIMESTAMP表示该文档已删除,则新主文件会反映该更改
  5. 更新LATEST_TIME

1 个答案:

答案 0 :(得分:0)

你可能更喜欢看DataStax之类的东西,其中包括并集成了(AFAIK)Solr,Cassandra和Hadoop。当然,这是一个商业产品。他们有一个社区版,但我不认为它集成了Solr。