如何在lucene中提升更长的文档

时间:2012-09-18 17:25:42

标签: solr lucene lucene.net elasticsearch

我有一个包含1-10个句子的短语索引。较长的短语是更相关的结果,但由于术语频率较低,因此它们得分低于所有1个衬垫。我想要做的是提高术语频率的倒数,或者只是推动更长的文档。

我正在使用C#,NEST和ElasticSearch,但我不知道如何使用原始的Lucene来解决这个问题,所以任何事情都会有所帮助。

例如

如果我搜索“书面文章” doc 2 这样的简短文档在顶部是完整的,而像 doc 1 这样的好结果在底部。我该怎么扭转这个?

Doc 2

  

猫不能写文章

Doc 1

  

这是写得很好并想出文章 .Lorem ipsum dolor sit   amet,consectetur adipiscing elit。 Quisque ornare sem ac arcu posuere   灵猫。整数egestas pharetra nunc nec cursus。 Nam rhoncus sem nec   sem laoreet tincidunt。

1 个答案:

答案 0 :(得分:3)

也许添加文件长度字段并提升它?

您是否尝试使用omitNorms=true删除规范,从而删除长度规范化,以便不会提升较短的文档?