如果我有一个名为name的字段,并且我使用建议api来获取拼写错误的建议,我是否需要启用文档频率或规范才能做出准确的建议?我的假设是肯定的,但我很好奇是否可能在lucene中有一个单独的建议索引来处理频率和/或规范,即使我已经为我的主索引中的字段禁用它。
答案 0 :(得分:1)
我怀疑建议者是否可以在没有字段长度规范化的情况下工作,因为禁用规范意味着您正在寻找二进制值,无论该术语是否存在于文档字段中,并且这反过来将影响每个文档的相似性得分
These three factors—term frequency, inverse document frequency, and field-length norm—are calculated and stored at index time. Together, they are used to calculate the weight of a single term in a particular document.
“但我很好奇是否可能在lucene中有一个单独的建议索引来处理频率和/或规范,即使我已经为我的主索引中的字段禁用它。” 默认情况下,任何建议者都会使用向量空间模型来计算余弦相似度,而余弦相似度又将使用基于tf-idf-norm的评分在每个术语的索引编制过程中对建议进行排名,因此我怀疑建议者是否可以在没有字段的情况下准确地对文档进行评分常态。
相关评分背后的理论:http://www.elasticsearch.org/guide/en/elasticsearch/guide/current/scoring-theory.html#field-norm