在Lucene / SOLR中,有没有办法增加长文档的子节?

时间:2019-09-25 14:36:15

标签: boost solr lucene relevance

我运行的搜索引擎专门研究临床文档。大多数是摘要,大概250-350字。 一个真正痛苦的问题是寻找指南。它们通常很长(1000多个单词),并且标题简短。因此,标题可能是“ 前列腺癌的诊断和后续治疗”,其中可能包括许多部分,其中包括一个名为“ 筛查前列腺癌”的

>

现在,如果有人搜索“ 筛查和前列腺癌”,则该指南在搜索中的作用不大,原因有两个:

    标题中没有提到“
  1. 筛选”(标题词得分更高)
  2. “筛查”部分可能确实相关,但在整个指南中可能只有10%-因此术语密度确实很低。

这些指南都是HTML和PDF格式,并且来自许多不同的出版商,因此(就我所知)为每个指南创建特定规则都是不可行的。

在上面的示例中-为了搜索“ 筛查和前列腺癌”,我该如何增强文档以查看指南,使结果更高?我想我可以对指南进行更重的加权,但这似乎缺乏技巧!

0 个答案:

没有答案