Solr提供了一种基于关键字搜索文档的简便方法,但我想知道它是否能够自行返回关键字?
例如,我可能想要搜索上周由Joe Blogs创建的所有文档,然后通过其中的关键字来了解这些文档的内容。或者我是否必须自己制定关键词并将它们保存在一个字段中?
答案 0 :(得分:3)
假设关键字是指Solr在解析特定字段时生成的标记,您可能需要查看the Term Vector Component的文档和示例。
在实现之前,只需检查Solr(4+)Admin WebUI的Analysis屏幕,因为它有一个显示特定字段实际生成的术语/标记的部分。
如果这些不是您尝试生成的关键字,则可能需要使用单独的字段来生成这些关键字,可能需要在索引管道中使用UpdateRequestProcessor。
最后,如果您尝试感觉进行某种聚类,您可能需要查看已经执行此操作并与Solr集成的Carrot2。
答案 1 :(得分:1)
您所要求的是“Topic Model”。 Solr没有开箱即用的支持。但是,您可以集成其他工具来实现此目的。
Apache Mahout支持LDA algorithm,可用于建模主题。有几个将Solr与Mahout集成的例子。这是one such。
Apache UIMA(非结构化信息管理应用程序。)我不打算打字。相反,这是一个brilliant presentation。