应用错误收集

我想对目前存储在Solr中的数据进行推荐，聚类和分类。 Solr是我们的主要数据存储。我刚刚开始使用Mahout + Hadoop。

我认为Solr索引不是输入Mahout（或其他Hadoop作业）的友好格式;在我可以对它执行map-reduce操作之前，我必须将其转换为文本格式。也就是说，我必须在HDFS中有一个文本文件始终同步与Solr中的数据。

在Solr for Hadoop / Mahout中使用数据的好计划是什么？我应该将Solr中的更改同步到HDFS中的文件吗？

这是我计划将solr数据同步到文件的方式。对于用户X：

从LATEST_TIME
将这些文档转换为文本并使用文件名存储：'X_LATEST_TIMESTAMP'
将X_LATEST_TIMESTAMP与主文件合并：如果主文本文件说文档ID 123包含内容而X_LATEST_TIMESTAMP表示该文档已删除，则新主文件会反映该更改
更新LATEST_TIME