如果我有40000个文档索引,我的阈值是.005。在搜索建议中显示某个关键字之前应该包含多少个文档?
答案 0 :(得分:0)
您的问题默认为5,但您可以根据需要进行更改。
但是,您有两个不同的阈值: mlt.mintf,最小术语频率 - 在源文档中忽略术语的频率,DEFAULT_MIN_TERM_FREQ = 2 mlt.mindf,最小文档频率 - 忽略单词的频率,至少在这么多文档中不会出现,DEFAULT_MIN_DOC_FREQ = 5
我建议您查看http://wiki.apache.org/solr/MoreLikeThis了解所有细节。
如果您想了解“更像这样”是如何运作的,我还建议您阅读这篇优秀的文章http://cephas.net/blog/2008/03/30/how-morelikethis-works-in-lucene/
答案 1 :(得分:0)
我会说条款应该出现(至少)200个文件(40000中),以便进入建议清单。
40000分之200= 0.005
200 - >存在特定术语的文件数量 40000 - >文件总数。