我想对目前存储在Solr中的数据进行推荐,聚类和分类。 Solr是我们的主要数据存储。我刚刚开始使用Mahout + Hadoop。
我认为Solr索引不是输入Mahout(或其他Hadoop作业)的友好格式;在我可以对它执行map-reduce操作之前,我必须将其转换为文本格式。也就是说,我必须在HDFS中有一个文本文件始终同步与Solr中的数据。
在Solr for Hadoop / Mahout中使用数据的好计划是什么?我应该将Solr中的更改同步到HDFS中的文件吗?
这是我计划将solr数据同步到文件的方式。对于用户X
:
答案 0 :(得分:0)
你可能更喜欢看DataStax之类的东西,其中包括并集成了(AFAIK)Solr,Cassandra和Hadoop。当然,这是一个商业产品。他们有一个社区版,但我不认为它集成了Solr。