是否可以配置Solr以使文档相似度得分在范围内,例如从0(不匹配)到1(完整文档和查询匹配)。
谢谢!
答案 0 :(得分:0)
不,tf-idf不能像那样工作,概念上搜索并不像那样。如何定义“完全匹配”?
答案 1 :(得分:0)
你需要这个用于某种UI仪表吗?也许您应该查看文档http://en.wikipedia.org/wiki/Cosine_similarity之间的余弦相似度,其中第一个文档是查询。
答案 2 :(得分:0)
应该可以,你需要改变lucene排名功能(solr在内部使用lucene)。您可以替换默认实现。我不知道你需要多长时间让它运行但是 - 如果你真的需要a boolean retrieval engine - 你可以做到。您应该从this document开始调查。
我不确定您需要这样的功能,但我想您可能希望将Solr用作键值存储。在这种情况下,您需要更改索引配置 - 您的analyzer不应标记输入文本。如果是这样,文本将被放置在索引中而不进行修改(相同的分析器用于处理查询)。因此,如果您在查询中提供了一个键(“1234”表示字段“MY_KEY”),您将获得该密钥的相应文档。
答案 3 :(得分:0)
不,我不是在谈论布尔查询,但感谢Lucene Similarity&评分。
好吧,我正在思考用于信息检索的语言模型。想知道是否有人知道lucene / solr中是否有这样的实现
http://nlp.stanford.edu/IR-book/html/htmledition/language-models-for-information-retrieval-1.html