我有一个相对简单的Lucene索引,由Solr提供服务。该索引由两个主要字段组成,标题和正文,以及一些不太重要的字段。
大多数搜索引擎都会对标题中的匹配结果提供更多相关性。我将开始为title字段提供索引时间提升。
我的问题是,人们通常会将哪些值用于标题字段? 2? 4? 10? 100?
答案 0 :(得分:3)
我建议你将中位体长除以中位数标题长度。这大致给出了一个因子M - 对于身体中单词的M个外观,它将在标题中出现一次。 现在,使用像M * 3这样的东西。当然,这是一种合理化的启发式算法,最好是对值进行迭代。有关更加结构化的讨论,请参阅Grant Ingersoll's "Debugging Relevance Issues in Search"。