我有一个包含1-10个句子的短语索引。较长的短语是更相关的结果,但由于术语频率较低,因此它们得分低于所有1个衬垫。我想要做的是提高术语频率的倒数,或者只是推动更长的文档。
我正在使用C#,NEST和ElasticSearch,但我不知道如何使用原始的Lucene来解决这个问题,所以任何事情都会有所帮助。
如果我搜索“书面文章” doc 2 这样的简短文档在顶部是完整的,而像 doc 1 这样的好结果在底部。我该怎么扭转这个?
Doc 2
猫不能写文章
Doc 1
这是写得很好并想出文章 .Lorem ipsum dolor sit amet,consectetur adipiscing elit。 Quisque ornare sem ac arcu posuere 灵猫。整数egestas pharetra nunc nec cursus。 Nam rhoncus sem nec sem laoreet tincidunt。