从Solr快照获取原始文本文件?

时间:2013-06-19 18:30:28

标签: database solr machine-learning text-files

我有一个Solr数据库快照。该数据库是已发布博客文章的存档(以及每个帖子的一堆元数据)。快照是成千上万的帖子。

我想在帖子上运行一些机器学习算法和主题建模。所以我本身不需要数据库,我只想以一些简单的形式获取帖子的原始文本和元数据。谁能告诉我如何在不实际安装Solr的情况下打开或提取该信息?

1 个答案:

答案 0 :(得分:0)

我猜你有Solr索引是指Solr数据库快照 Solr索引基本上是一个lucene索引,您可以使用Lucene apis只读取索引并从字段中提取数据。
这不需要安装Solr。