标签: database solr machine-learning text-files
我有一个Solr数据库快照。该数据库是已发布博客文章的存档(以及每个帖子的一堆元数据)。快照是成千上万的帖子。
我想在帖子上运行一些机器学习算法和主题建模。所以我本身不需要数据库,我只想以一些简单的形式获取帖子的原始文本和元数据。谁能告诉我如何在不实际安装Solr的情况下打开或提取该信息?
答案 0 :(得分:0)
我猜你有Solr索引是指Solr数据库快照 Solr索引基本上是一个lucene索引,您可以使用Lucene apis只读取索引并从字段中提取数据。 这不需要安装Solr。